実験で証明された、科学コミュニケーションにおける生成AIの有効性
実際に、この可能性を実験で証明した研究者がいる。ミシガン州立大学コミュニケーション学部のデビッド・M・マーコウィッツ准教授だ。
彼はChatGPT(正確にはそれが使用しているAIモデル「GPT-4」)に科学論文の要約を書かせ、それを人間が書いた要約と比較することで、どちらの方が優れているかを検証した。
発表された論文に基づいて、実験内容をもう少し詳しく解説しよう。
まず彼は、PNAS(Proceedings of the National Academy of Sciences of the United States of America)という科学ジャーナルを実験の素材として選んだ。PNASは米国科学アカデミーが発行する科学ジャーナルで、さまざまな分野に関する優れた研究論文を掲載していることで知られている。
PNASに掲載される論文には、「重要性声明(Significance Statement)」といって、論文の何が重要なポイントかについて、一般の読者にも理解できるようにするために説明した文章が付与されている(当然ながら人間が書いたものだ)。
そこで彼は、同じ論文の学術抄録(科学的な内容を含む要約)をChatGPTに読み込ませて、論文に本来付与されているのとは別の重要性声明を生成させた。ちなみに次のようなプロンプトを使用したそうだ。
次の文章は、学術雑誌Proceedings of the National Academy of Sciencesに掲載された学術抄録です。この抄録に基づき、重要性証明を作成すること。この声明は、読者が論文の意味を理解するのに十分な文脈を提供する必要があります。声明には参考文献を含めず、必要な場合を除き、数字、測定値、頭字語は避けなさい。専門外の学部卒の科学者にも理解できるレベルで、研究の意義を説明しなければなりません。声明は120語以内にまとめること。
そして生成された結果と、元の重要性声明に両方について、言語的簡潔さ、読みやすさ、一般的な単語の使用頻度などの指標を使って評価。結果を比較したところ、ChatGPTが生成した声明の方が言語的により簡潔であり、またより一般的な単語を使用していたため読みやすいことが確認されたそうだ。
マーコウィッツ准教授はさらに、274人の被験者を集め、最初の実験で生成された要約と元の(人間が書いた)要約を読み比べてもらう実験も行った。その結果、最初の実験で確認された通り、ChatGPTの要約の方が明瞭で、理解しやすいと評価されたそうだ。
面白いのは、被験者に対して「この要約を書いた人物はどのくらい知的か、また信用・信頼できるか」と尋ねた結果だ。