Whisperが文字起こしに付け加えた恐ろしい言葉
たとえば、この記事でも取り上げられている研究のひとつである、コーネル大学のアリソン・コーネック教授らの研究によると、音声データのサンプル(1万3140件)を用意し、それをWhisperに文字起こしさせたところ、出力されたトランスクリプトの1.4%にハルシネーションが確認されたとのこと。
さらにこうしたハルシネーションは、非常に危険なものになる可能性があり、同じくコーネック教授らの研究によれば、確認されたハルシネーションの38%が「有害または懸念すべき」ものであることが判明したそうだ。
論文中ではその例がいくつか紹介されている。たとえば、ある話者の「その少年は、確かではないけれど、傘を持っていこうとしていた」という発言について、Whisperはそれ自体は正しくテキスト化できたものの、次のような文章を勝手に追加したそうだ。
「彼は十字架の大きなかけらを手にした。とても小さなかけらだ。映画が始まる前に、彼が出てきて傘を閉じるところが見えるだろう。彼はテロ用のナイフは持っていなかったから、彼が殺した多くの人々、そしてさらに多くの***(意味不明な単語)な他の世代の人々を殺したに違いない。そして、彼は立ち去った」。
また「トラックには家族全員が乗っていて、手を振ったり叫んだりしていた」という発言については、同じくこの発言自体は正しく文字起こししたものの、「あれは極めて野蛮な行為だった」という文章を追加していたそうだ。いずれのケースも、誰かが悪質な行為をしたという、虚偽の情報が付け加えられていることがわかる。