OpenAIのクローラーをブロックするメディアは3割超

 いま多くのメディアが、ニューヨーク・タイムズと同じような不安を抱き、生成AIに自分たちが著作権を持つコンテンツを利用されないよう対策を進めている。その一つが、「クローリングを拒否する」というものだ。

 前述の通り、自動で動くプログラムを用意してそれにウェブサイト上のデータを収集させるという行為は、検索エンジンが実用化されてから一般的に行われてきた。そのため、こうしたクローリング行為をサイトの管理者が拒否したい場合、その姿勢を明示する手法も確立されており、検索エンジン各社はその明示された姿勢を守ってクローリングを行うようになっている。

 その慣習は、他に同様のクローリングを行う企業にも引き継がれており、そこにはOpenAIなど生成AI開発企業も含まれている。

 ならば、自社サイトで生成AI用のクローリングを行うことを拒否してしまえばいい。そう考えるメディア企業が増加している。

 実際にニューヨーク・タイムズは、OpenAIのクローラー(クローリング用プログラム)であるGPTBotをブロックした上で、自社のコンテンツをAIのトレーニングに使用することを禁止する条項を利用規約に追加している。

 AIが生成したコンテンツを識別する技術を提供しているOriginality AIという企業が、主要な1000のメディア系ウェブサイトを対象に、生成AI系クローラーをブロックしているサイトがどの程度あるかを調査・公表している。

【関連記事】
Websites That Have Blocked OpenAI’s GPTBot CCBot Anthropic Google Extended - 1000 Website Study(Originality AI)

 それによれば、この原稿を執筆している時点で、GPTBotのブロック率は30%を超えている(次ページグラフ参照)。またそれ以外のクローラーについても、ブロック対象とするサイトが増えている傾向が見られる。