生成AIが社会に急速に普及する中、「AIエージェント」が注目を集めています。会話するチャットボットの生成AIに対し、AIエージェントは自律的に動き、オンラインショッピングや航空券やチケットの予約まで自動でこなします。AIエージェントはいま、どこまで実用的なのか。実際にChatGPTの「エージェントモード」機能を使ったデモを通じて、経営コンサルタントの小林啓倫氏が、AIエージェントがどのようにタスクを実行するのか、そして現状の課題を解説します。3回に分けてお届けします。
※JBpressのYouTube番組「JBpressナナメから聞く」の内容の一部を再構成したものです。番組ではAIエージェントを実際に操作しながら、その仕組みと使い方をわかりやすく解説しています。詳しくはYouTubeでご覧ください。
AIエージェントが「仮想ブラウザ」を操作
——実際にAIエージェントはどんなことができるのでしょうか。
小林啓倫・経営コンサルタント(以下、敬称略):皆さんが試せる、ChatGPTの「エージェントモード」を使った例でお話ししましょう。
例えば、「Amazon.co.jpで一番安いUSB-Cケーブルを購入してください。1mでお願いします」と指示すると、ChatGPTが「仮想ブラウザ」を起動します。これは、ChatGPTの中にもう1台、別のパソコンの画面が立ち上がり、その中でAIが自分でインターネットを使っているような感じです。これは人間の指示に応じて外部のウェブサイトやシステムを実際に操作できるということで、対話だけのチャットボットとは一線を画すポイントです。
今回はまずマイクロソフトの検索サービスのBingでAmazon.co.jpのサイトを探しに行こうとします。ただ、残念ながら今回は、エージェントが拒否され、そこで処理が止まってしまいましたね。おそらくAmazon側がエージェントによる操作を検知してブロックしているのだと思います。
では別の例として、旅行の手配を頼んでみましょう。エージェントモードで「12月24日から1月3日まで北海道旅行をするので、羽田から新千歳空港までの往復航空券で一番安いものを予約して」と入力しました。
すると仮想ブラウザ上で「Google Flights」や「Expedia(エクスペディア)」などの旅行サイトを次々と開こうとします。操作の過程は吹き出しログで逐次表示され、人間がパソコンを操作しているかのようにサイト上で検索やクリックを自動で行っているのが確認できます。
通常、システム同士を連携して何かを実行する場合はAPI(ソフトウエアやアプリケーション同士がデータをやり取りするための仕組み)経由で処理しますが、ChatGPTのエージェントモードでは人間と同じようにウェブ画面を直接操作して目的を達成しようとします。このように人間と全く同じ手順でウェブサイトを開いて動かすというのが、AIエージェントの特徴の1つです。
一方で、現状のAIエージェントには不安な点や不十分な点もあります。場合によっては明らかに危ない操作を始めてしまうこともゼロではないので、そう感じたら途中で強制停止して、人間側がエージェントの操作を引き継ぐこともできます。