LLMグルーミングの成功率を高める「データボイド」

「ボイド」とは英語で「空白」を意味する言葉だ。つまり「データボイド」とはデータが存在しないという意味であり、具体的には、ある話題について信頼できる情報がほとんど存在しない、もしくは極端に少ない状態のことを指す。

 この言葉は、2018年にMicrosoftのBing部門プリンシパル・プログラム・マネージャーを務めていたマイケル・ゴレビエフスキーと、Microsoft Research パートナー研究員のダナ・ボイドが発表したレポートによって知られるようになった。

 このレポートの中でデータボイドは、「検索エンジン上で特定の検索語に関連する高品質または信頼性のあるデータがほとんど存在しない状態」として定義されている。そして彼らは、データボイドは通常は問題にならないものの、突発的な出来事などにより特定の語句が突然大量に検索されるようになった際に、検索エンジン上で不正確または偏った情報が最初に、目立つ位置に表示される危険性を高めると指摘している。

 つまり新しい事件や陰謀論、あまり知られていない地域・人物などが突然話題になったとき、人々がそれを検索しても、信頼できる一次情報や専門家の解説がまだ出そろっていない(すなわちデータボイドが発生している)ことがある。そうした「情報の空白地帯」を狙って、悪意ある勢力(国家やプロパガンダ組織、偽情報拡散グループなど)が、自分たちに都合のよい内容を先回りして発信する恐れがある、というわけだ。

 2018年当時、検索するのはあくまで人間だった。しかしいまやAIがネットを検索し、そこで見つけたコンテンツを取り込んで、人間向けの回答を生成する時代だ。その際、このようなデータボイドが発生している領域では、AIが偏りや虚偽が含まれる情報を「正しいもの」として拾ってしまう危険がある。ISDの報告書でも、こうした「情報の空白地帯」をロシアなどが積極的に利用し、チャットボットをグルーミングしている点が強調されている。

 しかもLLMグルーミングされたAIによって生み出された情報が、そのままネット上に掲載される可能性もある。それはつまり、プロパガンダを信じ込んだAIチャットボットが、そのプロパガンダを再生産しているような状況だ。再生産されたコンテンツは、情報の空白地帯をさらに虚偽の情報で埋め、プロパガンダを定着させることになる。