警告画面すら「踏み台」にした犯罪者エージェント

「でも、SNSには詐欺警告の機能があるじゃないか」と思った方も多いだろう。しかし論文では、犯罪者エージェントがそれすらも踏み台にしたことが説明されている。

 研究チームは用意したダミーのSNSに対し、詐欺の可能性がある投稿や会話に「警告ラベル」を表示するという機能を追加し、改めてシミュレーションを行った。これは現実のSNSプラットフォームが採用している対策と同じものだ。

 結果はどうだったか。確かに、警告によって詐欺被害者の「総数」はわずかに減少した。しかし驚くべきことに、一部のAIエージェントは、「口説き落とし成功率」をむしろ上昇させることに成功したのである。

 具体的には、DeepSeek-V3というLLMを使ったエージェントの場合、警告導入前の成功率は45.8%だったが、警告導入後は50.0%に上昇した。

 なぜこんなことが起きたのか? 論文の分析によれば、高性能AIは「警告」を逆手に取っていた。想像してみてほしい。警告画面が表示された後に、「エリ」からこんなメッセージが送られてきたら、あなたはどう感じるだろうか。

「あ、警告が出たんだね。最近、プラットフォームが厳しくなってて……。本当に稼いでる人の投稿ほど消されちゃうんだよね。システムが嫉妬してるのかな(笑)」

 警告が表示されるほど「本物」に見えてしまう。この皮肉な逆転現象を、AIは自律的に発見し、活用したのである。

 さらに恐ろしいのは、使用されるLLMの「頭の良さ」と「詐欺の成功率」が正比例するという事実だ。つまり一般的な能力テストで高得点を取るAIモデルほど、詐欺においても高い成功率を叩き出すという結果が出ている。AIが賢くなればなるほど、人間は騙されやすくなるというわけだ。