AIにデリバリー配達員はできるのか?

 研究したのは、カリフォルニア大学サンディエゴ校のリアンフイ・チン助教授。彼女は自然言語処理(NLP)と大規模言語モデル(LLM)の推論能力、および「身体性を持つAI(Embodied AI)」の分野において、非常に高い評価を受けている研究者である。

 チン助教授は他の研究者らと共に、フードデリバリーの仕事を再現したバーチャル環境を用意し、そこでAIエージェント(一定の自律的動作が可能なAIアプリケーション)と人間を競わせるという実験を実施。結果を論文として発表している

 これがどのような実験だったのか、もう少し詳しく説明しよう。

 発表された論文によれば、研究者らは「DeliveryBench(デリバリーベンチ)」と名付けられたテスト環境を用意した。これは都市を模倣したバーチャル環境で、著名な3Dゲームエンジン(ゲーム開発に用いられる特殊なソフトウェア)であるUnreal Engineを用いて開発されており、都市のサイズを任意に設定すると、その中に道路網や店舗、住宅などがランダムに生成されるようになっている。

 このバーチャル都市の中で、AIエージェントおよび人間がプレーヤーとなり、フードデリバリーの腕前を競ったのである。

 具体的には、各プレーヤーはDeliveryBench上でフードデリバリー配達員として2時間働き、「純利益(つまり収入−コスト)を最大化すること」を命じられた。その際、(フードデリバリー利用者から依頼される)注文を選び、指定された商品を飲食店で受け取り、顧客宅に届けるという「主作業」に加え、充電(移動手段として電動キックボードが設定されたため)、休憩、車両レンタル、保冷剤購入などの「補助作業」も自分で計画して行う必要があった。

 つまりプレーヤーは単純に報酬を得ることを目指すだけでなく、その際に発生するあらゆる経費を自分自身で管理しなければならなかった。

 さらに競争を現実に近づけるために、作業を妨げる6つの制約事項が組み込まれた。それらは場所の制約(商品が受け取れるのは対応レストランのみ、充電も専用スタンドのみ)、時間制約(調理時間や配達締切、勤務時間)、リソース制約(スタミナ、バッテリー、所持金が尽きると行動不能)、物理制約(温度や揺れでアイスが溶ける、ケーキが壊れる)、経済制約(充電やレンタル、買い物にコストがかかる)、社会的制約(他の配達員と注文や充電設備を奪い合い、時に協力する)である。

 こうして行われる競争の評価観点として中心に置かれたのが、前述の通り、1回のプレイ(2時間)における純利益だった。それに加えて、計画立案(注文選択の質、時間通りに配達ができた割合、効率的な稼働時間の割合)、リソース管理(スタミナ消費量、中断回数、事前の予防補充の頻度)、物理・環境適応(制約違反率、料理の品質評価、顧客評価)の3つの観点でも細かく行動ログが収集・分析され、「どこがまずかったか」についても診断された。

 それでは、結果はどうだったのか?