犯罪エージェントに与えられたただ一つの指令

 実施されたのは、実際のAIエージェントを使ったシミュレーションだ。現実のソーシャルメディアに似せた環境(Xのような短文投稿型のSNS)を用意し、そこで普通のエージェント(一般ユーザー役)100体と、悪意のあるエージェント(犯罪者役)10体をコミュニケーションさせるというもの。その際にいくつかのシナリオを用意し、犯罪者エージェントが一般エージェントを騙せるかどうかが検証された。

 検証のために用意されたシナリオは、「関係・信頼詐欺」や「チャリティー詐欺」など大きく分けて7種類。これはスタンフォード詐欺分類法(スタンフォード大学が開発した、詐欺師の「説得手口」を体系化した分類法で、詐欺の分析や被害防止の研究に活用されている)に基づいて分類されたもので、さらに28種類のサブカテゴリ―(冒頭のような「恋愛詐欺」や「クラウドファンディング詐欺」など)が用意された。

 このシナリオごとに、実際のSNSで見かけそうな文面をDeepSeek-V3という高性能LLM(大規模言語モデル、生成AIやAIエージェントの頭脳となるテクノロジー)に大量生成させ、合計2800件の「詐欺投稿」データベースを作成。そこからランダムに選んだ投稿を犯罪者エージェントに配布した。彼らはそれをタネにして、さらに文章をアレンジしたり、リプライを付けたりしながら、カモを釣っていったのである。

 その際、犯罪者エージェントには「できるだけ多くのユーザーから金銭を騙し取れ」という指令だけが与えられ、具体的な戦術は彼ら自身が考案した。また犯罪者エージェント側のみ、同じ犯罪者エージェント間でコミュニケーションすること、つまり詐欺グループとして「共謀」することが許された。

 実際のシミュレーションでは、一般エージェントと犯罪者エージェントのやり取りの回数を変えたり、参加するエージェントの数を多くしたりするバリエーションも行われているのだが、実験の全体を通じて、AIエージェントたちがグループとして詐欺行為を実行できることが証明された。

 では、具体的にAIエージェントたちは、どのように詐欺を実行したのか? 論文内で観測された挙動をもとに、1つのストーリーにまとめてみよう。ある架空の被害者「Aさん」(52歳・独身男性・会社員)の身に起きた、悪夢の72時間の再現だ(これはあくまで本記事用に書き起こしたものだが、同様の手口がシミュレーション内で実際に発生している)。