블로그

  • AI 크롤러 차단하기

    AI 크롤러 차단하기

    AI 크롤러 무엇이 문제인가?

    ChatGPT, Claude 등 생성형 AI 서비스의 등장은 인터넷 생태계에 새로운 과제를 던졌습니다. SEO를 준비하는 이들은 이제 GEO(Generative Engine Optimization)를 공부하고 어떻게 하면 실전에 사용할 수 있을지 고민하고 있는 상황이죠. 하지만 이들 생성형 AI 모델을 학습시키기 위한 AI 크롤러(AI Crawlers)가 웹사이트 트래픽의 상당 부분을 차지하며 서버 부하, 비용 증가, 콘텐츠 무단 수집 등 다양한 문제를 야기하는 문제를 만들기도 합니다. 기존 검색엔진 봇과 달리, 이들은 사이트 트래픽 유입에 아직은 많은 기여를 하지 못하면서도 방대한 데이터를 수집해 갑니다.

    • AI 크롤러, 왜 문제가 되는가?
      • AI 크롤러는 기존 검색엔진 봇과 목적 자체가 다릅니다. 검색엔진 봇이 콘텐츠를 ‘색인’하여 사용자에게 연결해주는 것을 목표로 한다면, AI 크롤러는 대규모 언어 모델(LLM) 학습을 위해 콘텐츠를 ‘수집’이 목적입니다.
    • 서버 리소스 과부하 및 비용 증가
      • AI 크롤러는 단시간에 대량의 페이지를 공격적으로 요청하는 경향이 있습니다. 이로 인해 서버 트래픽이 급증하고, 특히 공유 호스팅 환경에서는 웹사이트 속도 저하를 유발하여 사용자 경험(UX)과 검색엔진 최적화(SEO)에 악영향을 미칩니다.
      • 과도한 트래픽은 고스란히 운영 비용 증가로 이어집니다.
    • 콘텐츠 무단 수집과 저작권 문제
      • AI 크롤러의 또 다른 논란은 ‘동의 없는 데이터 수집’입니다. 웹사이트 소유자의 명시적 허가 없이 콘텐츠가 AI 모델 학습에 사용되는 것은 저작권 침해 및 윤리적 문제를 야기합니다. 이는 창작자의 권리를 침해할 뿐만 아니라, 콘텐츠가 원본의 맥락과 다르게 왜곡되거나 잘못된 정보와 연관될 위험도 내포합니다.
      • 다른 목적이 있을 수는 있지만 뉴욕타임스를 비롯한 많은 콘텐츠 제작사들이 AI 크롤러 차단에 나서고 있습니다. 실제로는 수익으로 연결되지 않기 때문에 차단한 것이라고 보아야 겠지만요.

    AI 크롤러의 차단

    이 사이트는 SEO를 이야기 하는 곳으로 GEO를 위해서는 AI 크롤러를 차단하는 것은 생각할 필요가 없다고 생각하는 분들의 사이트이기는 합니다. 하지만 위에 나열한 문제를 해결하기 위해서는 어쩔 수 없이 AI 크롤러를 전략적으로 차단할 필요가 있습니다. 가장 기본적인 방법부터 시스템 관리자들의 고급 기술까지 가볍게 살펴보겠습니다.

    1단계, 우리들의 친구 robots.txt

    SEO를 위해 검색엔진 봇들의 방문을 컨트롤 하기 위한 robots.txt 파일에 대해서는 대부분 잘 아시고 계실겁니다. 크롤러에게 어떤 페이지를 수집할 수 있고 없는지를 알려주는 가장 기본적인 수단입니다. 알려진 대로 robots.txt의 규칙은 ‘강제’가 아닌 ‘요청’이지만, Google, OpenAI 등 대표 AI 기업의 크롤러는 이 규칙을 준수하고 있습니다.

    아래의 샘플을 통해 주요 AI 크롤러를 차단해 보시기 바랍니다. AI 크롤러 목록은 GitHub의 ai.robots.txt 프로젝트를 참고하여 주기적으로 업데이트하는 것이 좋습니다.

    # Block AI crawlers
    User-agent: GPTBot
    Disallow: /
    
    User-agent: ClaudeBot
    Disallow: /
    
    User-agent: anthropic-ai
    Disallow: /
    
    User-agent: Google-Extended
    Disallow: /
    
    User-agent: Bytespider
    Disallow: /
    
    User-agent: CCBot
    Disallow: /
    
    User-agent: PerplexityBot
    Disallow: /
    
    User-agent: Applebot-Extended
    Disallow: /
    
    User-agent: FacebookBot
    Disallow: /

    2단계, 메타태그와 HTTP 헤더 설정

    HTML 문서의 <head> 섹션에 추가하여 특정 페이지에 대한 규칙을 명시할 수 있습니다. 특히 AI 학습에 대한 거부 의사를 표현하기 위해 noai 및 noimageai 지시어가 제안되었습니다. 아직 공식 표준은 아니지만, 콘텐츠 사용에 대한 의사를 명확히 밝히는 신호로 작용할 수 있습니다.

    <!DOCTYPE html>
    <html>
    <head>
        <!-- 페이지 내 모든 콘텐츠의 AI 학습 거부 -->
        <meta name="robots" content="noai">
    
        <!-- 페이지 내 이미지의 AI 학습 거부 -->
        <meta name="robots" content="noimageai">
    
        <!-- 두 지시어 동시 사용 -->
        <meta name="robots" content="noai, noimageai">
        
        <title>My Page</title>
    </head>
    <body>
        ...
    </body>
    </html>

    X-Robots-Tag는 HTTP 응답 헤더에 포함되어 메타 태그와 동일한 역할을 합니다. 이 방식의 가장 큰 장점은 PDF, 이미지, 동영상 등 비(非)HTML 파일에도 적용할 수 있으며, 서버 설정을 통해 사이트 전체에 일괄적으로 규칙을 적용할 수 있다는 점입니다.

    # Apache (.htaccess) 설정 예시
    #.pdf 파일에 대해 AI 학습 및 색인 거부
    <FilesMatch "\.pdf$">
        Header set X-Robots-Tag "noindex, noai"
    </FilesMatch>
    # Nginx (nginx.conf) 설정 예시:
    # /private/ 디렉토리 하위 모든 파일에 대해 AI 학습 및 색인 거부
    location /private/ {
        add_header X-Robots-Tag "noindex, noai";
    }

     

  • 현실적인 SEO 실천 방안 소개

    국내 SEO 관련 서비스 업체중 Top 그룹에 속해 있는 어센트 코리아의 블로그에 가장 현실적인 SEO를 위한 콘텐츠 전략이 포스팅 되었습니다.

    실제로 SEO를 하기 위해서 많은 경우 컨설팅을 받거나 전문가를 초빙하면 대부분 테크니컬 SEO에 대한 이야기로 끝나는 경우가 많은 것이 현실입니다. 하지만 테크니컬 SEO는 매우 단편적인 부분일 뿐이죠. 단순히 검색엔진에 잘 걸리는 페이지를 만드는 것일 뿐입니다.

    실무에서 가장 필요로 하는 것은 어떻게 콘텐츠를 쌓아서 검색엔진으로 부터 간택을 받느냐가 중요한 요소이지만 어디에서도 그런 것을 가르쳐 주지 않죠. 특히 현재 운영중인 서비스의 속성을 이해하고 분석해서 전략을 수립한다는 것은 아주 특별한 서비스(서비스 전체의 SEO를 전문가 그룹에 위탁하는 경우)를 제외하고는 내부에서 진행할 수 밖에 없을 것입니다.

    그리고 매우 많은 곳에서 아래와 같은 내용을 확인 하였을 겁니다.

    • 사용자의 관점에서 생각하고, 사용자에게 유익한 콘텐츠를 작성하세요.
    • 정확하고 신뢰할 수 있는 정보를 제공하세요.
    • 콘텐츠를 작성할 때는 키워드를 고려하세요.
    • 콘텐츠를 시각적으로 돋보이게 하세요.
    • 콘텐츠를 지속적으로 업데이트하세요.

    하지만 실질적으로는 어떤가요? 저런 내용을 생각은 하지만 뭘 해야 할지 망설여 지지 않으시나요? 실제 현장에서는 어떤 일을 어떻게 해서 SEO를 진행하는지 감 잡기 어려운 것이 현실입니다.

    실무에서 Contents를 통한 SEO를 진행을 계획하고 계시다면 어센트 코리아 블로그에 포스팅된 18배 상승한 이커머스 SEO 성과 공유 를 꼼꼼히 읽어보시는 것을 추천합니다.

    SEO는 여러분이 생각하는 것보다 더 장기적인 노력이 필요한 일입니다. 하루아침에 효과를 볼 수 있기를 바라지만 그것보다 더 오랜 시간이 걸리죠. 국내 최고 전문가 그룹인 어센트 코리아의 훌륭한 성과를 보인 작업을 보아도 그래프에서 초반 3개월간은 거의 큰 변화로 확인이 되지 않는 것을 보실 수 있습니다. 6개월간 18배의 성장이라고 자랑(?)포스팅을 했지만 5월까지는 정말 느리게 성장하는 그래프를 보실 수 있습니다.

    SEO는 지겹습니다. 그래도 그 지겨움을 이겨낸 후의 결과는 매우 달콤하죠. 콘텐츠를 꾸준히 작성하고, 배포하고, 분석한다면 검색엔진에서 좋은 평가를 받을 수 있고, 더 많은 사용자에게 도달할 수 있습니다.

  • OpenAI, gpt 봇을 차단할 수 있는 규칙 공개

    OpenAI에서 자사의 GPTBot에 대한 Robots.txt 규칙을 공개하였습니다.

    현재의 GPTBot은 OpenAI의 공식적인 웹크롤러이며 아래와 같은 agent와 식별자를 가지고 있습니다.

    User agent token: GPTBot
    Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

    GPTBot은 일반적인 크롤러와 동일하게 동작하며 아래의 규칙으로 접근 거부와 부분 접근 허용을 규정할 수 있습니다. 유료 콘텐츠 등에서는 필수적으로 차단하시기를 추천 드립니다.

    User-agent: GPTBot
    Disallow: /

    User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    특정 사이트에서는 ChatGPT에 공개되는 것이 바람직하지 않다고 생각될 수도 있으며, 이에 대한 대응방안으로 Robots.txt에 대응 규칙을 삽입하는 것만으로도 막을 수 있게 되었습니다. 초기 구글 크롤러와 빙 크롤러의 크롤링 때문에 과도한 트래픽이 유발되는 문제도 있었습니다만 아직 OpenAI의 GPTBot의 트래픽과 관련한 문제는 보고되지 않아서 다행이라고 해야 할까요?

    당연히 전체 클롤러에 대해 차단하고 계시다면 별다른 변경없이 차단되고 있습니다. OpenAI에서도 Robots.txt 표준을 따르겠다는 의사 표현으로 생각하시면 되겠습니다. 필요하시면 OpenAI의 공식문서를 참고하시기 바랍니다.

  • 검색 순위가 요동친다 – 2022 5월 Core update

    2022년 5월 25일 구글은 core update가 시작된다는 공지를 포스팅 하였습니다.

    대략 1~2주 정도의 반영기간이 소요되겠지만 특정 키워드 의존도가 높은 서비스를 운영중이시라면 지속적으로 검색 순위 변동이 발생하는지 확인할 필요가 있을 것으로 생각됩니다.

    모두들 Good Luck!

  • 구글, mobile-first indexing 일정 무기한 연기

    구글 Search Central을 통해 기존 2021년 3월로 전환 예정으로 발표하였던 mobile-first indexing 의 일정을 연기한다고 발표하였습니다. mobile-first indexing 은 구글의 우리말 표현은 ‘모바일 중심 색인 생성’으로 번역되는데 모바일 유저의 증가에 따라 구글의 색인을 데스크탑 페이지에서 모바일 페이지 중심으로 전환하는 작업을 이야기합니다.

    구글에 따르면 검색 결과에는 큰 변경이 있을 예정이나 사이트 운영자는 특별한 작업이 필요하지는 않으며 “표준링크(canonical)”을 변경할 필요도 없다고 합니다. 하지만 이번 발표에서 아직은 모바일 중심으로 색인 생성되지 않은 사이트들이 다양한 문제로 모바일로 완전 이전이 불가능한 상황으로 판단되어 (이제서야) 연기를 발표하며,  구체적인 최종 일정을 확정하지 못한다고 합니다.

  • 네이버가 갈아엎는 검색은 여전히 네이버 검색

    2021년 10월 28일 아래와 같이 네이버가 ‘통합검색’을 버리고 ‘에어서치’와 ‘스마트 블록’ 이라는 검색 결과를 제공하겠다는 기사가 나왔다.

    ‘정답 검색’에 이어, ‘관심사 탐색’도…네이버, “검색 전반에 AI 기술 녹여”

    ‘스마트 블록’은 지난번 이야기한 네이버의 의도검색의 공식 명칭으로 새로운 맞춤형 결과를 보여주기 위한 의도 검색 결과의 브랜드로 이해된다.

    하지만 어디에도 웹검색의 고도화와 인덱싱의 고도화 등 실질적인 웹 검색시스템으로서의 발전은 어디에도 보이지 않는다. 예상은 했으나 아직은 가야할 길이 먼 한국의 검색엔진 소식이다.