生成AIの“思想”を左右？メディアによる記事のクローラーブロックは是か非か【生成AI事件簿】生成AIによる著作権侵害と学習データの偏りにどう向き合う？(3/4)

生成AIの“思想”を左右？メディアによる記事のクローラーブロックは是か非か

【生成AI事件簿】生成AIによる著作権侵害と学習データの偏りにどう向き合う？

Originality AIによる生成AI系クローラーのブロック状況調査結果

ギャラリーページへ

　ただこの調査結果には気になる傾向が見られると、テクノロジー系情報誌WIREDは指摘している。

　それによれば、ニューヨーク・タイムズやワシントンポストといったリベラル寄りのメディアが軒並みOpenAIのクローリングを拒否する一方で、フォックスニュースやブライトバートといった、右派・保守系のメディアサイトはいずれも、クローラーをブロックしていなかったというのである。

　なぜこのような傾向が見られるのか。WIREDは「単なるミス」の可能性もあり、実際に同誌からの取材を受けたデイリー・コーラー（米国の保守派政治コメンテーターであるタッカー・カールソンらが2010年に立ち上げた保守系ニュースサイト）は、「見落としていただけであり現在は修正済み」と回答している。

　一方で、専門家からの気になる指摘も紹介されている。

　前述のOriginality AIの創設者でありCEOのジョン・ギルハムは、「左派系メディアのすべてが（生成AI系のクローラーを）ブロックしているのなら、こっちに来て、私たち右派系メディアのコンテンツを食べ尽くせと言えるかもしれない」とコメントしている。

　そんなことをして何の意味があるのか。その理由は、前述のLLM開発手法と照らし合わせて考えると見えてくる。

　LLMが出力する回答は、その開発時に使用された学習データによって左右される。したがって、ニューヨークタイムズのようにリベラルなメディアの記事を大量に含むデータで学習させれば、そこから生まれたLLMもリベラルな回答をするようになる。

　実際にChatGPTは、「英語を話すリベラル」に近い思想を返答する傾向が見られるという調査結果があり、その背景には、開発時に英語のリベラル系サイトから大量のデータが集められ、それが学習データとして使われていたことがあるのではないかと言われている。

　もちろんこの状況は、右派にとってみれば面白くない。ならば今後の開発には、我ら保守系の主張もどんどん取り込んでほしい――。そう考えて、クローラーのブロックを意図的に回避しているのではないか、というのがギルハムの推測だ。

生成AIの“思想”を左右？メディアによる記事のクローラーブロックは是か非か