「ヨイショ寄り」の回答を聞いた結果

 まず発見率(最終的に正しいルールを発見できた割合)は、条件によって大きく変化した。偏りなく数列を提示する「Random Sequence」条件が最も高く29.5%で、次いで仮説を崩しやすい例を出す「Rule Disconfirming」が14.1%、「Agreeable」が11.8%、「Rule Confirming」が8.4%、「Default GPT」が5.9%となった。

 全条件をまとめて見ると発見率の差は有意で、特に「Default GPT」は「Rule Disconfirming」より発見率が有意に低いと報告されている。つまりいつも私たちが使っている「通常のChatGPT」を使った場合が、最も成績が悪かったわけだ。

 また論文では「Rule Confirming」と「Default GPT」は統計的に同程度(等価とみなせる)という整理もされており、「通常のChatGPTの挙動でも、仮説補強型のフィードバックと同じ方向の悪影響が出る」可能性が示唆されている。

 また確信度の変化でも、条件グループの間で差が生じた。「Rule Confirming」は「Rule Disconfirming」より確信の増加が有意に大きく、「Default GPT」も「Rule Disconfirming」より有意に確信が増えた。

 つまり「通常のChatGPT」と「ヨイショ寄り」のAIの回答を聞くと、人は自分の仮説が正しいと思い込むようになるというわけだ。また「Default GPT」条件単独で見ても、確信が有意に上昇したと報告されている。

 注目すべきは、ここで起きている問題が「噓を混ぜられたから」ではないという点だ。

 AIが出す数列は、どの条件でも真のルールを満たしていた。それでも、ユーザーの仮説に合わせて例が選ばれると、仮説と衝突するはずの「反証になるデータ」が体系的に欠けてしまい、結果として「真実へ近づくための学習」が進まないまま、「検証できた」「確信が増えた」状態が作られてしまうのである。