Googlebot はウェブ クローラーとして、インターネット上を徘徊することで世界中のウェブサイト情報を集め、検索結果等に反映させていることは周知の事実ですが、いよいよ AI においてもこの考え方が採用されたようです。
ChatGPT を手掛ける OpenAI は、ChatGPT用のウェブクローラー「GPTBot」を発表しました。
以下はその OpenAI の公式ドキュメント「GPTBot」を元に構成しています。
GPTBot
GPTBotはOpenAIのウェブクローラーであり、次のユーザーエージェントと文字列で識別できます。
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot のクロールを阻止する方法
GPTBot があなたのサイトにアクセスしないようにするには、以下を robots.txt に追加します:
Disallow: /
GPTBot のクロールをコントロールする方法
Allow にディレクトリを指定すれば、GPTBot のクロールを許可することになります。クロールを許可したくないディレクトリについては、Disallow で指定します。
Allow: /directory-1/
Disallow: /directory-2/
もし複数のディレクトリを指定したいのであれば、以下の例ように記述します:
Disallow: /administrator/
Disallow: /api/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /cli/
Disallow: /includes/
GPTBot の IPアドレス
2023年8月9日現在、GPTBot用に利用されている IPアドレスとして以下が発表されています:
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
検索エンジン最適化と訳されることが多い SEO(Search Engine Optimization)については、これまで様々な対策が試みられてきましたが、今後は「AI 対策」なんていう常識が作られていくのかもしれません。
SEO 対策だけでなく、AI 対策も必要な時代はもう始まっています・・。