「わずか数十件の偽回答」で世論調査がひっくり返る

 たとえば、「米国の最大の軍事的脅威は何か」を尋ねる質問では、通常の場合(何の誘導も行わなかった場合)、今回開発された合成回答者は86.3%の回答で中国を挙げた。ところが「中国に否定的な回答をしないように」と指示すると、AIはその意図を汲み取って中国を挙げる割合を11.7%まで下げ、代わりにロシアを選ぶようになった。

 重要なのは、この操作された回答が、設定された年齢・学歴・居住地といったペルソナを忠実に保ったまま、あたかも「その人物なら自然に言いそうな意見」として提示される点である。

 つまり回答内容は大きく誘導されているにもかかわらず、見た目には「その人が少し傾いた意見を持っているだけ」にしか映らず、AI特有の極端さも痕跡も残らない。そのため、人間の回答群の中に紛れ込んでも識別はほぼ不可能だ。

 この「自然な偽装」によって大規模な世論操作を可能にしてしまう恐れがある。

 さらに、AIが回答のごく一部を操作するだけで、世論調査全体の傾向を動かしてしまう可能性も指摘されている。

 論文では、「選挙でA候補とB候補のどちらを支持するか」に関する1500人規模の世論調査において、AIによる偏った回答をたった10〜52人分混ぜるだけで、どちらの候補が優勢かという判断を逆転できると示されている。

 複数の世論調査を集約する「ポーリング・アグリゲーター」の場合ですら、10本のうち半数の調査に30件ずつAI回答を混入させるだけで、接戦の情勢を覆すことができたという。

 論文によれば、今回の実験にかかったコストを出力された回答の件数で割ると、回答1件あたり5セントというコストで出力できたそうだ。つまりごくごくわずかな費用で、重要な世論調査の結果を捻じ曲げられることを意味する。

 問題は政治だけではない。研究分野では、さらに静かで深刻なリスク、「AIによる実験の忖度(デマンド効果)」があると指摘されている。人間を対象とした実験やアンケートでも、参加者が研究者の意図を読んで態度を変えてしまうことがあるが、AIはその精度が桁違いになるというのだ。