実験で明らかになったAIエージェントの弱点
人間にとっては朗報と言うべきか、DeliveryBench上で行われた実験では、最新のAIエージェントであっても人間のプレーヤーのパフォーマンスには遠く及ばないことが明らかになった。両者の間には、収益性と実務能力の両面で、顕著な格差が見られたのである。
収益面について見ると、人間はバーチャル都市のサイズをどのように設定しても、平均して時給50ドル超の純利益を上げることができた。一方、AIエージェントはその頭脳として実験が行われた時点で最高のモデル(Claude-3.7)を使用した場合でも、 30ドル程度に留まった。他のモデルを使うと、大都市では赤字になるケースすらあったそうだ。
原因は何か。まず挙げられているのが「時間の使い方」である。
AIエージェントは、充電待ちなどの際に何もせずに止まってしまう場面が多く、料理の待ち時間に別の注文をこなす、複数の注文をまとめて配達するといった「並行処理」がほとんどできていなかった。そのため、能動的に作業していた比率や、時間をどれだけ有効活用したかを示す指標などで、人間より大きく劣る結果となった。
もうひとつ挙げられている原因が「リソース管理の弱さ」である。
多くのモデルにおいて、スタミナやバッテリーが尽きて強制停止になる「中断」が1時間あたり1回以上発生しており、ギリギリまで車両を走らせてから止まってしまったり、逆に余裕があるのに無駄に充電しすぎたりするケースも見られた。先回りして充電する「予防行動」の能力は人間より明確に低く、AIは長時間の勤務を自律的に維持する力が不十分であると評価された。
また、物理環境に関する「暗黙のルール」の扱いも苦手だった。
アイスクリームを熱い料理と一緒に入れて溶かしてしまう、においの強い料理とデザートを同じスペースに詰めてしまうなど、品質を損なう行動を頻繁に取ってしまったという。その結果、AIでは制約違反率が高く、配達された料理の品質評価や顧客評価も人間より一段低い水準に留まることとなった。
実はAIエージェントを使用した実験では、もうひとつ別のパターンが試されていた。それは「マルチエージェント実験」である。