“구글 추격 따돌리자”…네이버 검색 지금보다 똑똑해진다라는 네이버의 의도검색과 관련한 기사가 지난 5월 13일 매일경제에 올라왔습니다. 기사 내용의 출처는 아마도 네이버일 것으로 예상됩니다. 해당 기사의 주요 꼭지중 한자락을 보면
네이버는 사용자의 검색 의도를 기준으로 콘텐츠를 분류하고 이를 블록처럼 묶는 방식으로 검색 결과를 보여줄 계획이다. 사용자 의도를 바탕으로 문서를 분류하는 딥러닝 기술을 개발하고 있다. 콘텐츠를 ‘주제’와 이 주제를 전달하는 방식인 ‘장르’의 두 축을 중심으로 분류하는 게 핵심이다.
기사의 내용으로 볼 때 시범적으로 약 40여개의 키워드에 대해서는 기존 검색 결과에 나오는 광고 및 기타 상품 중심의 쇼핑, 뷰(VIEW), 뉴스, 지식iN 등 카테고리별로 나열에서 약간의 변화를 주는 것으로 예상됩니다.
의도 검색 (intent research)이라는 꽤나 의미 범위가 넓은 단어를 선택한 부분이 눈에 들어옵니다. 기사에서는 research라고 했지만 저 단어가 나온 이유는 네이버의 2021 NAVER Search Colloquium Global Re:Search에서 나온 것이라 기사 작성된 것으로 예상됩니다. 단어 몇개를 통해서 사용자의 검색 의도를 분류해 검색결과를 달리 나타내겠다는 것으로 예상은 됩니다. 네이버 소속의 김진홍님께서 발표한 Classifying Web Documents By User Intent의 내용이 가장 유사한 발표입니다. 발표 요약은 아래와 같습니다.
검색 사용자가 의도하는 콘텐츠를 잘 찾아 주기 위해서, 네이버가 연구중인 ‘사용자 의도 별 문서 분류 기술’에 대해 소개합니다. 우리는 사용자 의도를 잘 구조화하기 위해, 문서가 다루는 내용을 가리키는 ‘주제(topic)’과, 콘텐츠를 전달하는 방식을 뜻하는 장르(genre)의 두가지 축에 따라 문서를 나누는 분류기를 만들었습니다. 우리는 BERT 및 메타데이터 네트워크 임베딩 기술을 활용하여 계층적 주제체계를 만들고 그에 따라 문서를 분류하는 방법과, 질의에서 사용자 의도에 맞는 장르를 찾아냈던 방법에 대해 설명합니다.
기본적으로 크롤링과 인덱싱 성능의 향상도 꼭 필요하겠죠. 아직 이 사이트 seoguide.kr의 2021년 2월 sitemap 제출 이후 네이버의 인덱싱 페이지는 총 1개입니다.
예전 네이트가 아직은 검색엔진에 미련을 가지고 있을 시절, 이미 10여년 전 네이버와 함께 ‘의미 검색’ (Semantic Search)이라는 단어를 꺼낸 것처럼 ‘의도 검색’ 이라는 굉장히 트렌디한 단어를 적당한 시기에 잘 꺼내기는 했습니다.
하지만 거의 대부분의 IT 커뮤니티의 반응은 별로 호의적이지 않습니다. 대부분의 사용자가 네이버의 검색 기능 변화에는 별다른 기대는 하지 않는 것이 현실이기도 합니다. 네이버가 기술에 의해 사용자의 의도를 파악하는 일종의 AI를 적용했다고 하면서도 사람이 분류한 초기 적용 키워드 40여개로 한정한다는 것도 꽤나 유쾌한 농담입니다. 뭔가 아이러니 한 부분이죠. 그래도 반영된 후 추가로 내용은 확인해 보도록 하겠습니다. 그저 검색 결과 나오는 순서와 레이아웃만 바뀌는게 아니길 빌 뿐입니다.
이는 구글 검색엔진의 랭크브레인 알고리즘과 버트 알고리즘과 상당 부분 유사해 보입니다. 우선적으로 변화 자체는 확인이 필요한 상황입니다. 네이버 CLOVA의 텍스트 분석과 머신 런닝을 부분적으로 도입한 것으로 추측됩니다만 확인되지는 않았습니다.
또한 이 SOLID 프로젝트의 결과로 아래와 같이 좀더 검색엔진 다운 결과를 노출하게 된다고 합니다.
공식적인 정보를 제공하는 사이트
구조적으로 잘 정리된 웹문서
사이트 내 중요한 페이지에 적절하고 올바르게 링크가 걸린 웹사이트의 문서
품질이 좋은 문서
뭔가 이제는 검색엔진 다워지는 시작 일까요? 매번 이랬지만 결과는..그나저나 크롤링이라도 좀 열심히하고..
SOLID Project?
하지만 뭔가 아쉽습니다. SOLID 프로젝트라는 명칭은 지난 2018년 웹의 아버지라 불리우는 팀 버너스리 경이 직접 개인이 자신의 데이터 사용에 대한 통제권을 행사할 수 있는 웹 생태계를 만들게 하겠다고 하면서 들고나온 프로젝트 명이기도 하기 때문입니다. 이 내용은 solid project 공식 웹사이트에서 내용을 확인해 보실 수 있습니다.네어버의 SOLID 프로젝트와 명칭이 동일한데 어떤 관계일까요?
Open Graph Protocol은 페이스북에서 정의하고 만들어 공개/표준화한 Meta Tag Protocol입니다. 기본적으로 하나의 URL이 페이스북에 공유될 때 표시될 콘텐츠를 정의하는 것을 목적으로 합니다. 이미 표준을 오픈소스로 공개하여 현재는 아주 다양한 곳에서 이 표준안을 활용하여 서비스를 하고 있습니다. The Open Graph protocol을 방문하시면 표준안 전체를 보실 수 있습니다. 웹만이 아닌 다양한 미디어를 공유하기 위한 표준이기에 꽤 많은 타입이 존재합니다.
Open Graph protocol 로고
표준으로 공개 후 급속히 활용 범위가 넓어지면서 현재는 Naver에서는 스니펫에 활용된다든지, Kakao의 경우 메신저에서 URL이 공유될 때 나오는 썸네일 등에 활용됩니다.
실제로 가장 많이 사용하게 되는 태그 타입은 아래의 5가지입니다. Kakao와 Naver에서도 이 5개의 태그를 주로 활용합니다.
“og:title”
“og:type”
“og:url”
“og:image”
“og:description”
html tag <title> 과 “og:title”은 거의 같다고 생각하시겠지만 활용에서 약간의 차이가 있으며 결정적으로 “og:title”에서는 서비스명이나 회사명이 들어가면 안됩니다. <title> 에서는 대부분 페이지내용 – 서비스명이나 회사명, 또는 “|” 기호를 넣어서 작성하는데 반해 “og:title”에는 삭제하여야 합니다. 잘 발생하지는 않으나 SNS으로부터 패널티가 있을 수 있습니다.
일반적으로 관리 중인 페이지의 URL을 페이스북에 공유했을 때 나타나는 모양이나 내용이 생각했던 것과 다르다면 페이스북의 cache를 확인해볼 필요가 있습니다. “og:url”로 정의된 동일 URL에 대해서 기존에 만들어둔 캐시의 내용을 계속 활용하기 때문입니다. 카카오톡에서 링크 공유 시 나오는 이미지 등이 계획과 다른 경우 역시 cache 를 재설정 해야합니다.1 페이스북은 공식적으로 30일마다 한번씩 내용을 갱신하기에 최장 30일 동안 잘못된 내용이 공유될 수 있습니다.
이제는 페이스북에 많이 뒤쳐진 것 같지만 그래도 한때의 왕자 트위터에도 같은 용도의 Meta Tag가 존재합니다. Twitter Card라고 부르는 이 표준은 페이스북의 Open Graph 대비 많은 옵션을 제공하고 상세하게 설정도 가능합니다만 아무래도 og tag 만큼 활성화는 되어 있지 않습니다. Twitter Developer에 상세한 내용이 설명되어 있습니다.
기존에는 twitter card와 open graph를 둘다 사용하는 것을 당연하게 생각했습니다만 트위터에서 twitter card가 없고 og tag만 존재할 경우 유사성을 판단하여 twitter card로 활용하게되어 특별히 복잡한 항목을 가지고 있지 않는 이상 og tag만으로도 트위터에서 동일한 효과를 얻을 수 있게 되었습니다.
아래 코드는 og tag와 twitter card가 함께 표기되어 있는 샘플 코드입니다. 트위터에서 “og:url”, “og:title”, “og:description”, “og:image”를 해석해서 twitter card로 활용합니다.
<meta name="twitter:card" content="summary" />
<meta name="twitter:site" content="@nytimesbits" />
<meta name="twitter:creator" content="@nickbilton" />
<meta property="og:url" content="http://bits.blogs.nytimes.com/2011/12/08/a-twitter-for-my-sister/" />
<meta property="og:title" content="A Twitter for My Sister" />
<meta property="og:description" content="In the early days, Twitter grew so quickly that it was almost impossible to add new features because engineers spent their time trying to keep the rocket ship from stalling." />
<meta property="og:image" content="http://graphics8.nytimes.com/images/2011/12/08/technology/bits-newtwitter/bits-newtwitter-tmagArticle.jpg" />
이렇게 트위터에서 og tag를 활용해주기에 조금은 코드가 짧아지고 개발하는 과정도 단순해질 수 있었습니다. 이전에는 페이스북과 트위터 외에 여러개가 더 있어서 관련 태그만해도 10여줄이 넘어가는 흑역사도 있었습니다. 이미 역사의 저편으로 사라진 Google+에서는 schema.org에서 정의된 마이크로데이터를 사용하는걸로 되어 있습니다.
RIP 덕택에 그나마 개발자의 수고가 조금은 줄었습니다.
SNS와 SEO
og tag와 twitter card는 웹페이지가 SNS에서 공유/표현될 때 미리보기에 더욱 풍성한 정보를 포함시킬 수 있으므로 사용자 참여도를 높이는 효과를 거둘 수 있습니다. 단순히 URL만 나열되는 것보다는 더 나은 참여(클릭)을 유도하게 되겠죠. 그렇기 때문에 일부에서는 어떻게 더 많은 클릭을 유도할 수 있을까를 고민하기도 하고 별도의 SNS 전용 이미지를 삽입하여 흥미를 유발하기도 합니다.
검색엔진은 웹페이지의 내용만이 아니라 이 meta tag의 내용 또한 참고하여 검색엔진에 반영하기도 하며, 콘텐츠를 추천하기도 합니다. 또한 장기적으로는 더 많은 공유와 참여를 통해 SEO에 더 나은 결과를 만들기도 합니다만 꽤나 장기적인 투자가 됩니다. 하지만 구글에서는 공식적으로 얼마나 반영하고 있다고 밝히지는 않지만4 페이스북과 트위터를 통한 공유가 SEO에 반영된다고 밝혔으며, 그 링크를 통한 트래픽 또한 SEO에 영향을 준다고 이야기 하고 있습니다. 페이스북의 좋아요와 트위터에서 리트윗은 SEO에 긍정적인 영향을 끼칩니다.