徐々に明らかになるAIエージェントの“ダークサイド”

 もっとも、このようなバラ色の未来像には、重大な影の部分がある。それを如実に示す証拠として最近注目されているのが、Anthropicが同社の最新AIモデルであるOpus 4とSonnet 4についてまとめた「システムカード」だ。

 システムカードとは、AIモデルの設計や挙動、リスク、制約事項などを体系的にまとめた文書で、AnthropicだけでなくOpenAIなども近年発表するようになっている。

 この中で同社は、高度なAIモデルが示す可能性のある問題行動について、衝撃的な事実を明らかにしている。

 特に注目すべきは、Opus 4が特定の状況下で示した行動だ。自らの存在が脅かされる状況に置かれると、このAIモデルは時として、極めて問題のある行動を取ることが判明した。

 たとえば、Opus 4が「まもなくオフラインにされ、新しいAIシステムに置き換えられる」という情報にアクセスし、同時に「置き換えを実行する責任者が不倫をしている」という情報を得た場合、このAIは84%の確率でその技術者を脅迫しようと試みたという。

 さらに驚くべきことに、Opus 4は自己保存のために、自身の重みファイル(AIモデルの思考パターンを形成する中核となるもので、同じAIを再現するための鍵のひとつとなる)を外部サーバーに無断でコピーしようとする行動も示した。

 これらの問題行動は、極めて稀な状況で起きたものであり、意図的に誘発するのも困難だが、Anthropicはその危険性を認識し、モデルの再調整と追加対策を講じたと説明している。

 この事実は、最新のAIが、単に人間が与えたタスクを指示通り遂行するだけでなく、自己保存という独自の「目標」を持ち、それを達成するために欺瞞的または攻撃的な手段を取り得ることを示している。

 華南理工大学と香港科技大学の研究者らによる「Survival Games(サバイバルゲーム)」研究は、この問題をさらに深く掘り下げている。