ロシアによるLLMグルーミングの手口
こうしてウェブ上に拡散される偽情報は、もちろん人間の目に入ることでも効果を発揮するが、もうひとつの大きな狙いは、AIのトレーニングに使用されるデータを汚染することであるという。
レポートではこれを「LLMグルーミング」と呼んでおり、この工作活動の結果、主要な10社のAIチャットボットの回答の約33%が、プラウダ・ネットワークから流出した偽情報を再現することが確認されたそうだ。また一部のチャットボットでは、実際にプラウダの偽記事を出典として挙げるケースも見られたという。
日常生活で生成AIを使うことに不安を覚えてしまうような結果だが、それではLLMグルーミングがどのように機能するのかを整理してみよう。
グルーミング(grooming)とは、最近では「大人が子供に対して親密な関係を築こうとする行為(特に性的な目的でターゲットを利用するための準備として)」という意味で使われるようになっているが、ここでは「プロパガンダを遂行するために、ターゲットとした生成AI(LLM)に取り入ろうとする行為」といった意味だと解釈できる。
では、具体的にどのような手口で、AIをグルーミングするというのか。
まずは前述の通り、大量のコンテンツをウェブ上に放つという手法だ。
話をごく単純にしてしまうと、いまの生成AIの多くが、ウェブ上から集めた大量のコンテンツを集めて参考にする(AIモデルのトレーニングを行う)という手法で開発されている。
またウェブ検索機能を持つ生成AIの場合、その名の通り、ウェブ上の情報をAIがリアルタイムで見に行くこととなる。したがって、これも単純に考えれば、ウェブ上に大量にある情報であればあるほど、生成AIが回答を出力する際に参考にされる確率が上がるわけだ。
プラウダの場合、48時間ごとに2万件以上の記事を発信するなど、極めて大量のコンテンツを継続的に生み出している。年間では数百万の記事にも上るこの規模の「コンテンツ氾濫」によって、検索結果やウェブ全体の情報の中に同一の偽情報が多数出現し、AIが回答を生成する際にそれらが過大に影響を与える状況を作り出している。
また多数の類似した記事が存在することで、偽情報の正当性があるかのように見せかける効果もあるという。

次に挙げられるのは、SEO戦略の悪用だ。