ChatGPTとは根本的に異なるOpenClawの仕組み
ChatGPTやGemini、Claudeなど、現在一般的な生成AIチャットボットをたとえて言うなら、それは「頭だけの存在」だ。非常に賢く、膨大な知識を持ち、さまざまな情報を瞬時にまとめてくれるが、手も足も持たないので物理的な作業はできない。
一方でOpenClawは、「頭と手足を備えた存在」だ。考えるだけでなく、ユーザーのパソコンの中で実際にファイルを作ったり、コマンドを実行したり、ウェブブラウザを操作したりできる。この点は非常に重要だ。
ChatGPTを使うとき、私たちはインターネットを通じてOpenAI社のサーバーにアクセスしている。会話のやり取りはすべてクラウド上で処理され、私たちのパソコンはただ画面を表示しているだけだ。これは安全でもあるが、同時に制約でもある。クラウド上のAIは、私たちのパソコンの中身には一切触れることができない。
OpenClawの仕組みは異なる。AIの「頭」にあたる部分(LLMなどのAIモデル)はクラウド側に置かれたものを利用するが、実際の作業を行う「手足」にあたる部分は、ユーザー自身のパソコンの中で動く。具体的には、Dockerというソフトウェアを使って作られた隔離空間の中で、シェル(コマンドを実行する画面)やファイルシステムを直接操作できる。
また、ユーザーからの指示に対する姿勢も異なる。チャットボットは基本的に受け身だ。ユーザーがプロンプトを入力した時だけ、それに対して返答する。会話が終われば、次にユーザーがアクセスするまで何もしない。
OpenClawの場合、「ゲートウェイ」と呼ばれるプログラムがユーザーのパソコン上で常に動き続けており、設定さえすればユーザーが寝ている間でも定期的にタスクを実行できる。たとえば「毎朝6時にニュースをまとめて、指定された場所に投稿する」といった自動処理が可能になる。
もう1つ、ウェブブラウジングについても異なる点がある。ChatGPT等にも「ウェブ検索」機能があり、ネット上の情報を参照できるが、それは基本的に、検索エンジンの結果を取得して要約することが中心となる。ログインが必要なサイトにはアクセスできないし、ボタンをクリックするような操作もできない。
OpenClawは「Chrome DevTools Protocol(CDP)」という技術を使い、ウェブブラウザを直接操作できる。つまり、人間がマウスとキーボードで行うのと同じように、アカウントが必要となるログインをしたり、フォームに入力したり、ボタンを押下したり、画面遷移を追いかけたりできる。これにより、オンラインショッピングの注文確認や、ウェブサービスの設定変更といった複雑な作業の自動化が可能になっている。
このように、従来の生成AIチャットボットでは不可能だった多くのタスクをこなせるようになっているOpenClawだが、その一部は他のAIエージェントでも対応できる。ではなぜ、OpenClawにこれほど注目が集まるのか。既存のAIエージェントとの比較で考えてみよう。