OpenAI에서 자사의 GPTBot에 대한 Robots.txt 규칙을 공개하였습니다.
현재의 GPTBot은 OpenAI의 공식적인 웹크롤러이며 아래와 같은 agent와 식별자를 가지고 있습니다.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot은 일반적인 크롤러와 동일하게 동작하며 아래의 규칙으로 접근 거부와 부분 접근 허용을 규정할 수 있습니다. 유료 콘텐츠 등에서는 필수적으로 차단하시기를 추천 드립니다.
User-agent: GPTBot
Disallow: /
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
특정 사이트에서는 ChatGPT에 공개되는 것이 바람직하지 않다고 생각될 수도 있으며, 이에 대한 대응방안으로 Robots.txt에 대응 규칙을 삽입하는 것만으로도 막을 수 있게 되었습니다. 초기 구글 크롤러와 빙 크롤러의 크롤링 때문에 과도한 트래픽이 유발되는 문제도 있었습니다만 아직 OpenAI의 GPTBot의 트래픽과 관련한 문제는 보고되지 않아서 다행이라고 해야 할까요?
당연히 전체 클롤러에 대해 차단하고 계시다면 별다른 변경없이 차단되고 있습니다. OpenAI에서도 Robots.txt 표준을 따르겠다는 의사 표현으로 생각하시면 되겠습니다. 필요하시면 OpenAI의 공식문서를 참고하시기 바랍니다.