チーム人数が増えるほどパフォーマンスは悪化

 このパターンでは、1つの都市に同じAIモデルのエージェントを8体投入し、お互いにコミュニケーションすることを可能にした場合の挙動が調査された。この場合、AIエージェント同士は高報酬の注文や限られた充電スポットを奪い合う「競争」の一方、メッセージ交換による「協力」も可能になる。

 そう聞くと、AIエージェントが協力した場合は人間のパフォーマンスを上回ったのではないかと思ったかもしれない。しかし結果は逆。エージェント2体を組ませたペア編成の場合に最も効率的に作業できたが、それでも人間が単独で作業した場合を上回ることはできず、チーム内のエージェント数が増えると単独時よりも1体あたりの利益が下がる傾向が見られた。

 その主な理由として、次の2点が指摘されている。

 まず、エージェント数が増えるほどチャットでのやり取りが増え、「助けて」「この注文取るね」といったメッセージの送受信や調整に時間とトークンを消費し、その分、実際の配達行動が減ってしまった。

 また、助け合いのリクエストに対して誰が対応するかの優先順位付けができず、「誰も動かない」か「複数のエージェントが動いて無駄になる」ことも多く、チーム人数が増えるほどこうしたミスが増幅した。

 その結果、協力の潜在的なメリットよりも、調整コストと競合によるロスが上回り、特にエージェントが4体以上のチームでは、単独時よりもパフォーマンスが著しく悪化したと報告されている。

 以上の結果から、DeliveryBench上でAIエージェントは、①時間の並行活用、②スタミナ・バッテリー・所持金の事前管理、③食品品質や顧客満足を守る暗黙の常識、④他エージェントとの協調・役割分担、といった点で一貫して人間より劣っていることが明らかになった。今後「現実世界で本当に稼げるエージェント」を作る上で、こうしたギャップが課題になると論文は結論付けている。