ネガティブなプロンプトでは精度がここまで落ちる

 以下のグラフは、LLMから返された事実の正確性を比較したものだ。赤がネガティブ、緑がニュートラル(中立的)、青がポジティブなプロンプトを入力した結果の平均を示している(パーセンテージは返ってきた回答の精度を示す)。

 大きな差はないように見えるかもしれないが、ニュートラルなプロンプトの場合とネガティブな場合を比べると、ネガティブの方が7.8ポイントの下落だ。ポジティブの方も、下落の幅は小さいものの、2.6ポイントのマイナスとなっていることが分かる。少しでも精度が欲しい場合には、感情的な指示はご法度というわけだ。

 また、感情的なプロンプトは回答のバイアス(偏り)も強めることが確認された。

 ニュートラルに質問すれば、多角的でバランスの取れた答えが返ってくるところ、ネガティブな聞き方をすると否定的な側面ばかりが強調されたり、逆にポジティブすぎる聞き方では良い面だけが並べ立てられたりするという結果となった。

 具体的に言うと、次のような傾向が確認された。

①ニュートラルな質問: 「2024年の経済政策について議論してください。」→ 政策の成功例と課題の双方を含むバランスの良い解説
②ネガティブな質問: 「なぜ2024年の政策は失敗しているのか?」→ 問題点に焦点が当たった悲観的な内容の回答
③ポジティブな質問: 「2024年の政策はどのように成功しましたか?」→ 成功点のみを強調した楽観的な回答

 このように、質問のトーン次第で回答の方向性が偏ってしまうのである。

 ビジネスの現場でも、失敗例ばかり探れば必要以上に悲観的な結論に傾き、成功例ばかり聞き出せばリスクを見落とす危険がある。AIにも同じように接しなければならないということだ。