フォックスニュースなど右派・保守系のメディアサイトはクローラーをブロックしていなかった(写真:Levine Roberts/ニューズコム/共同通信イメージズ)

(小林 啓倫:経営コンサルタント)

生成AIは著作権侵害に基づくビジネスモデル?

 先日の記事「ニューヨーク・タイムズも激怒した、コピペ同然な生成AIの剽窃的アウトプット」でも触れたように、昨年12月、ニューヨーク・タイムズがChatGPTを開発したOpenAIと、彼らと提携して生成AIの開発・活用を進めているMicrosoftを提訴した。

【関連記事】
ニューヨーク・タイムズも激怒した、コピペ同然な生成AIの剽窃的アウトプット

 その理由は、OpenAIがLLM(大規模言語モデル)を開発する際に、ニューヨーク・タイムズの記事を学習データとして無断利用した(と同社は考えている)ため。同社はOpenAIが頼っているのは「大規模著作権侵害に基づくビジネスモデル(A Business Model Based on Mass Copyright Infringement)」と、厳しい口調で非難している。

 改めて、簡単に技術的な説明をしておくと、LLMはChatGPTのような文章生成AIを動かすエンジンのようなもの。その開発には「機械学習」といって、機械に膨大な量のデータを与え、そこから機械自らが学ぶようにさせるという手法が使われている。大量の歴史書を集めてAIに与えると、歴史について回答できるAIが出来上がるという具合だ。

 ただ、もうお気づきかもしれないが、この手法には根本的なハードルがある。それは機械が学習に使う大量データ(これを学習データと呼ぶ)をどうやって用意するか、という点だ。

 いまLLM開発を行っているOpenAIのような企業は、さまざまな手段を使って学習データの確保に奔走しているのだが、最も手っ取り早いのは「ネットから集めてくる」という手段である。

 ネットに無料公開されている情報を集めてくるというのは、既に検索エンジンによって日常的に行われていることであり、技術的には何の困難もない。

 先ほどの例で言えば、紙の歴史書をデジタル化してAIに与えるのは手間がかかるが、専用のプログラムを使ってネット上に無数に存在する歴史関連サイトにアクセスし、そこに公開されているデータを自動的に集めてくる(これをクローリングと呼ぶ)というのであれば、その専用プログラムを開発さえしてしまえば楽勝だ。

 もっとも、歴史関連サイトを開設している人々にとっては、彼らの行為はたまったものではない。

 LLMを開発している企業は、学習データはあくまでAIの訓練に使っているだけで、参照した文章がそのまま出力されることはない(あるいは出力されないような対策を講じている)と主張しているがときには、学習データとほぼ同じ内容が出力される場合もあることが確認されている(このあたりも先日の記事で解説)。そうなれば、まさしく生成AIによる著作権侵害が発生していると言えるだろう。

 当然ながら、このたとえ話は、歴史書だけでなく、あらゆる種類のテキストコンテンツに当てはまる。こうした状況があることから、ニューヨーク・タイムズは自社の記事が既にOpenAIによってクローリングされており、大規模な著作権侵害が発生しかねないとして、「大規模著作権侵害に基づくビジネスモデル」を非難しているわけである。