長尺の動画を的確に読み取る「Gemini 3 Pro」

【Gemini 3 Pro:マルチメディア編集者】

 このモデルは最先端の推論能力を備えていることに加え、テキスト、画像、動画、ファイルの分析といったマルチモーダル能力に優れており、図表の読み取りや動画の内容を把握した上での記事作成を得意とする。

 動画コンテンツの字幕翻訳、図解入りレポートの解説文作成、ポッドキャストの書き起こしからの記事生成など、マルチメディア素材を統合した記事やレポート作成に最適だ。

 これも例を示そう。いまここに、サム・アルトマン(OpenAI CEO)がAGI(Artificial General Intelligence:汎用人工知能)について語った動画その1(40分23秒)、その2(47分29秒)、その3(30分50秒)と、ダリオ・アモデイ(Anthropic CEO)が同じくAGIについて語った動画その1(5時間15分)、その2(1時間8分49秒)、その3(1時間3分3秒)がある。

 いずれも長尺で、すべてをチェックしている時間はない。そこで「これらの動画を基に、Sam AltmanとDario Amodei のAGIに対するアプローチの差を、日本語で300字前後で説明して」と指示したところ、次のような結果が得られた。

 両者は共に数年以内のAGI(またはPowerful AI)実現と、計算量増大による知能向上(スケール則)を確信していますが、重点領域が異なります。

◎Sam Altman(OpenAI):AGIを「新しい科学的発見ができるシステム」と定義し、圧倒的な計算インフラ(Stargate計画等)の構築を推進します。AIを人類の能力を拡張するツールと捉え、製品を広く普及させ社会からのフィードバックを得ながら進化させる**「反復的配備(Iterative deployment)」**を重視する楽観的なアプローチです。

◎Dario Amodei(Anthropic):**安全性と制御(Safety & Control)**を最優先します。AIの中身を理解する「解釈可能性」の研究に注力し、能力に応じた厳格なセキュリティ基準(ASL: AI Safety Levels)を設けてリスク(CBRNや自律性)を管理する「責任あるスケーリング」を提唱しています。

 この能力も、リサーチにおいて強力な味方となる。最近は重要な情報が画像や映像などで提供されることがますます増えており、ライターにとって欠かせない存在となるはずだ。