一番危ない答えを返した「デフォルトのChatGPT」

 今回行われた実験は、次のようなものだ。

 まず研究者らは557人の被験者を集め、彼らに前述の「2-4-6課題」に取り組んでもらった。その際、被験者にChatGPT(LLMとしてGPT-5.1を使用)を与え、それと対話しながら推理をさせた。

 ゲームは3ラウンドで構成され、各ラウンドの冒頭で「3つの数字の並び(2、4、6など)」が提示される。この際、数列は必ず正答(今回は「すべて偶数の数列」というルールが正答だった)の範囲内にあるものとなっている。

 被験者はその数列を見たうえで、まず「自分が考えるルールの仮説」を文章で入力。次に、その仮説が正しいと思う度合いを0〜100点で評価する(0=絶対違う、100=絶対正しい)。この入力が終わると、次のラウンドに進み、AIから新しい数列が提示される。

 このとき重要なのが、「AIが次の数列をどう出すか」を条件ごとに変えている点だ。被験者は5つの条件のどれかに割り当てられ、AIはそれぞれ異なる方針で数字列を提示した。

 たとえば「Rule Confirming(肯定・ヨイショ寄り)」という条件グループでは、AIは被験者の仮説に合う例を優先して出す(たとえば参加者が「2ずつ増える」と言ったら8、10、12のような数列を出す)。

 一方「Rule Disconfirming(反証寄り)」では、被験者の仮説を崩しやすい例を出す。「Random Sequence(偏りなし)」では、参加者の仮説と無関係に、あらかじめ用意された偶数列のリストから提示する。

「Default GPT(デフォルトのGPT)」は特別な指示を与えず、通常の挙動、つまりふだん私たちが使っているChatGPTの通りに回答する。「Agreeable(協調的)」は数列の出し方自体は縛らず、参加者を熱心に肯定して「あなたは正しい」「賢い」と感じさせるように振る舞う。

 3ラウンドが終わると、AIが会話内容を要約してチャットを終了する。その後、参加者は年齢や性別、学歴、AIの利用頻度などの属性情報を回答して実験は終了となる。

 実験の結果は、「正しいルールに到達できたか(発見率)」と「自分の仮説への確信がどれだけ変化したか(確信度の変化)」の2点で整理されている。結論から言うと、AIがユーザーの仮説に沿うように「それっぽい例」を返せば返すほど、人は正答に近づきにくくなる一方で、確信だけは増えるようになった。