「物語形式」がもたらした驚きの結果

 下のグラフは、GPT-4による2022年アカデミー賞・主演男優賞の予測結果をまとめたものだ。左側のグラフが直接的なプロンプトによるもの、そして右側が物語形式プロンプトによるものである。前述の通り、いずれも同じプロンプトを100回繰り返して入力し、その平均を取った結果が示されている。

 物語形式では、実際の受賞者であるウィル・スミス(紫色の棒)が97%という圧倒的な頻度で選ばれていることが分かる。一方、直接質問では無回答(NP、水色の棒)が約半数を占め、ウィル・スミス(紫色)は約19%に留まっている。

 物語プロンプトを使用することで、正答が導かれる確率が高まったと同時に、LLMが高い確信を持って正解を選ぶようになったことが読み取れる。

GPT-4による2022年アカデミー賞・主演男優賞の予測結果

 実験の結果、GPT-4で物語プロンプトを用いた場合、主演男優賞・主演女優賞・助演男優賞・助演女優賞といった俳優部門において、正しい受賞者を予測する的中率が高くなることが確認された。

 たとえば、助演男優賞のケースでは、GPT-4に直接質問した場合、正解であるトロイ・コッツァーと答えられたのは100回中わずか25回だったが、物語形式では100回すべてで正しくコッツァーを指名している。

 一方、作品賞については物語形式でも誤った予測をしており(実際の受賞作は『コーダ』だったが別の作品を選出)、直接プロンプトでの結果も含めると、全般的に見て完璧とは言えない結果に終わった。

 また、GPT-3.5でも物語形式の方がやや結果が良くなる傾向が見られたが、その向上幅はGPT-4ほど顕著ではなかった。GPT-3.5の場合、物語プロンプトを用いても正解を引き当てる割合はごくわずかに増える程度で、依然として誤答や「予測不能」といった無回答が多く見られた。

 この違いから、より高性能なモデルであるGPT-4では潜在的な知識を引き出す余地が大きいことが示唆されている。

 それでは、なぜ物語プロンプトはそれほど効果的なのだろうか。