OpenAIを訴えたニューヨーク・タイムズ(写真:ロイター/アフロ)
  • 記事の無断利用でOpenAIとMicrosoftを訴えたニューヨーク・タイムズ。その訴状の中で、ChatGPTの驚くべき剽窃的アウトプットが明らかになった。
  • 画像生成AIでの剽窃を調べた学者によれば、映画のワンシーンやアニメの玩具などの画像生成で、オリジナルをスクショしてコピペしたようなアウトプットが見られた。
  • 印刷技術の発展とともに時間をかけて成立してきた著作権の概念。生成AIという新しい技術によってアップデートが加えられようとしている。

(小林 啓倫:経営コンサルタント)

OpenAIを訴えたニューヨークタイムズ

 クリスマスも過ぎた昨年末の12月27日。米ニューヨーク・タイムズが、ChatGPTでお馴染みのOpenAIと、彼らと提携し生成AI活用を進めているMicrosoftを提訴した。訴えの中で、ニューヨーク・タイムズはOpenAIがLLM(大規模言語モデル)を開発する際に、同紙の記事を学習データとして無断利用したと非難している。

 LLMとは、テキスト生成AIを動かすエンジンのようなものだ。

 ChatGPTの場合、裏でGPT-4(もしくはGPT-4vなどその他のバージョン)というLLMが動いている。それを開発する際に、ニューヨーク・タイムズのコンテンツが無断利用されたというのが今回の訴えだ。そして、同社が受けた損害を補填するために、賠償金として数十億ドルを払えと要求している。

 なぜそのような多額の賠償を求めているのか。それには生成AIの技術的な特徴が関わって来るので、簡単に解説しておこう。

 前述の通り、ChatGPTのような生成AIアプリケーションの裏側では、LLMのようなAIモデルが動いている。このAIモデルを作成する際には、機械学習といって、機械に大量のデータを与えて自ら「学習」させるという手法が用いられる。

 簡単に言ってしまうと、日本の歴史に関する情報を大量に与えておくことで、その情報(学習データと呼ばれる)を学んで誕生したAIが、日本の歴史について語れるようになるという仕組みである(もちろん、実際の開発はこれほど単純ではないのだが)。

 ただ、この手法には大きな問題が2つある。1つは学習データの品質によって、開発されたAIの出力品質も左右されてしまう点だ。

 たとえば、日本の歴史に関する情報の中に、テレビアニメ「まんが日本昔ばなし」が含まれていたとしたら、それを学習したAIは「昔の日本には鬼が住んでいた」などと言い出すかもしれない。

 もう1つは、学習データにそっくりの出力をしてしまう場合があることだ。

 本当に「まんが日本昔ばなし」を学習したAIがあったとして、それに「桃太郎の絵を描いて」と指示したら、同番組で使用されたアニメーションそっくりの絵を生成してしまう可能性がある。今回問題になったのは、この後者の方のケースだ。

 注意して欲しいのは、生成AIが「まんが日本昔ばなし」の動画を見ながら絵を描いているわけではないという点である。

 機械学習で開発されるAIモデルは、開発の際に使用される学習データを、そっくりそのままどこかに溜め込むわけではない。ちょうど人間が「まんが日本昔ばなし」を見たときに、それが記憶として頭の中に残る(DVDレコーダー等に記録しているわけではなく)のと同じ理屈で情報を学習している。

 したがって、開発に使用された学習データとまったく同じものが出力される可能性は低いと考えられてきた。

 ところが、ニューヨークタイムズは今回の訴状の中で、自分たちの記者が一生懸命になって書き上げた記事の内容がそっくりそのまま出力されるケースが見受けられると主張している。どういうことだろうか。