Googleの新AI「Gemini 2.5 Computer Use」が登場：”PCを操作するAI”が拓く未来

Googleは、AIが人間のようにWebブラウザを操作する新モデル「Gemini 2.5 Computer Use」を発表した。ユーザーの指示に基づき、クリック、タイピング、フォーム入力といった一連の操作を自律的に実行する。これは、AIがアプリケーションの裏側（API）を叩くのではなく、人間と同じグラフィカルユーザーインターフェース（GUI）を直接操作する時代の到来を告げるものだ。

AIがGUIを直接操作する、Googleの新たな一手

GoogleのAI研究部門であるDeepMindは2025年10月7日（現地時間）、大規模言語モデルGeminiファミリーの最新版として「Gemini 2.5 Computer Use」を開発者向けに公開プレビューとしてリリースした。このモデルの最大の特徴は、Webブラウザやモバイルアプリの画面を「見て」、人間が行うのと同じようにマウスカーソルやキーボードを「操作」できる点にある。

従来、プログラムがWebサイトから情報を取得したり操作したりする際には、API（Application Programming Interface）と呼ばれる、機械同士が対話するための「裏口」を利用するのが一般的だった。しかし、世の中のすべてのWebサービスがAPIを提供しているわけではない。Gemini 2.5 Computer Useは、APIの有無にかかわらず、人間向けに作られた「表玄関」であるGUIを直接操作することで、この制約を乗り越えようとする試みである。

この技術は、Googleが以前から開発を進めてきた「AIエージェント」構想の核心をなすものだ。すでに「Project Mariner」や対話型AI「AIモード」の一部機能として、その原型となる技術が利用されてきたが、今回、独立したモデルとして開発者に広く提供されることになった。これにより、ソフトウェアの自動テストから、複雑な業務プロセスの自動化、さらには個人のための高度なデジタルアシスタント開発まで、幅広い応用への道が開かれたと言える。

「見て、考え、動かす」- Gemini 2.5 Computer Useの動作原理

Gemini 2.5 Computer Useは、どのようにして人間のような操作を実現しているのか。その心臓部には、基盤モデルであるGemini 2.5 Proが持つ高度な視覚理解能力と推論能力がある。動作は、一連のステップが完了するまで繰り返される「ループ」構造によって制御される。

視覚情報から次のアクションを決定するループ機構

このモデルの動作プロセスは、以下の4つのステップで構成される。

リクエストの送信: ユーザーは、実行したいタスク（例：「このECサイトで特定の商品をカートに入れ、クーポンを適用して決済画面に進む」）を自然言語で指示する。このとき、現在のブラウザ画面のスクリーンショットと、直前までに行われた操作の履歴もモデルへの入力情報として送られる。
モデルによる分析と応答生成: Gemini 2.5 Computer Useは、受け取ったテキスト指示、スクリーンショット、操作履歴を統合的に分析する。画面上のどこにボタンがあり、どこに入力フィールドがあるのかを視覚的に認識し、タスクを達成するために次に行うべき最適なアクションを推論する。そして、その結果を「クリック」や「タイピング」といった具体的な操作命令（関数呼び出し）として出力する。
アクションの実行: 生成された操作命令を受け取ったクライアント側のコードが、実際にブラウザ上でマウスクリックやキーボード入力を実行する。
フィードバックとループの継続: アクションが実行された後、変化したブラウザ画面の新しいスクリーンショットと現在のURLが、再びモデルにフィードバックとして送られる。これによりループが再開され、タスクの最終目標が達成されるまで、モデルは次のアクションを決定し続ける。

この一連のループは、人間が画面を見て、次に何をすべきか考え、実際にマウスやキーボードを操作する、という認知と行動のプロセスを模倣したものだ。

13の基本アクションで複雑なタスクを遂行

現在、このモデルがサポートするUIアクションは13種類に及ぶ。

クリック
タイピング
Web検索
指定URLへの移動
ブラウザの「戻る」「進む」
スクロール
カーソルのホバー
キーボードのコンビネーション入力（例: Ctrl+C）
ドラッグ＆ドロップ

これらの基本的なアクションを巧みに組み合わせることで、Googleが公開したデモ動画にあるような複雑なタスクの自動化が可能になる。例えば、ある動画では、ペットケアのサインアップリスト（Webページ）からカリフォルニア州在住のペット情報をすべて抽出し、別のスパの顧客管理システム（CRM）にゲストとして登録。さらに、専門家とのフォローアップ予約を10月10日の午前8時以降で設定するという、複数のWebサイトを横断する一連の作業を、AIが淀みなく実行する様子が示されている。

ベンチマークが示す「ブラウザ特化」の優位性

Googleは、Gemini 2.5 Computer Useが主要な競合モデルを性能で上回ると主張している。その根拠として、複数の標準的なベンチマークテストの結果を公開した。

競合を凌駕するWeb操作性能

Web操作の自動化能力を測る「Online-Mind2Web」や「WebVoyager」といったベンチマークにおいて、Gemini 2.5 Computer Useは、OpenAIやAnthropicのモデルを含む主要な代替手段を上回るスコアを記録したとされる。特に、ブラウザ制御における応答速度（レイテンシ）を低く抑えつつ、高いタスク成功率を両立している点が強調されている。これは、モデルがブラウザ環境に特化して最適化されていることの成果だと考えられる。

モバイルUI制御への布石 – AndroidWorldでの好成績

興味深いのは、このモデルが「デスクトップOSレベルの制御にはまだ最適化されていない」としながらも、Androidアプリの操作能力を測る「AndroidWorld」ベンチマークで高い性能を示した点だ。これは、Gemini 2.5 Computer Useの視覚ベースのUI理解能力が、Webブラウザという特定の環境に留まらず、モバイルOSのGUIにも応用可能であることを示唆している。将来的には、スマートフォン上のあらゆるアプリを横断して操作する、より強力なAIエージェントへの発展も視野に入っているのだろう。

激化するAIエージェント開発競争 – Googleの現在地

AIがコンピュータを操作するというコンセプト自体は、新しいものではない。OpenAIやAnthropicといった競合他社は、すでに同様の機能を先行して市場に投入しており、開発競争は激化の一途をたどっている。

先行するOpenAIとAnthropic

OpenAIは、ChatGPTの能力を拡張する「ChatGPT Agent」機能を提供しており、ユーザーの代わりに複雑なマルチステップのタスクを実行できる。また、Anthropicは2024年の段階で、同社のAIモデルClaudeがコンピュータを操作する機能をリリースしていた。これらの先行モデルは、Googleにとって強力なライバルである。

「ブラウザ限定」という戦略的制約か、それとも課題か

ここで注目すべきは、競合のモデルがOS全体へのアクセスを視野に入れているのに対し、Gemini 2.5 Computer Useが現時点ではWebブラウザにその活動範囲を限定している点だ。

この「ブラウザ限定」という制約は、二つの側面から解釈できる。一つは、技術的な課題が残されているという見方だ。OS全体の多様なUIコンポーネントやアプリケーション間の複雑な連携を安定して制御することは、Webブラウザに比べて格段に難易度が高い。

しかし、筆者はこれをむしろ「戦略的な選択」と見る。現代の業務や日常生活の多くはWebブラウザ内で完結しており、この領域に特化して性能と安定性を極めることは、実用的な価値を迅速にユーザーへ届ける上で極めて合理的である。ウェブという巨大で標準化されたプラットフォームを完全に掌握することを目指す、Googleらしいアプローチではないだろうか。

開発者への提供と今後の展望

Gemini 2.5 Computer Useは、Google AI StudioおよびVertex AIを通じて、Gemini APIの一部としてパブリックプレビューが開始された。

Gemini API経由での提供と価格体系

開発者はAPIを介してこのモデルの能力を自身のアプリケーションに組み込むことができる。料金体系は、基盤モデルであるGemini 2.5 Proに準じている。トークンベースの課金で、入力トークンは20万トークンまでのプロンプトで100万トークンあたり1.25ドル、それ以上で2.50ドル。出力トークンは100万トークンあたり10ドルから15ドルに設定されている。

ただし、Gemini 2.5 Proに存在する無料利用枠が、Computer Useモデルでは提供されない点には注意が必要だ。これは、より専門的でリソースを消費するタスクを想定しているためとみられる。

UIテストからワークフロー自動化まで広がる応用分野

Googleは、このモデルの応用分野として、ソフトウェア開発におけるUIテストの自動化や、企業内の複雑なワークフローの自動化、個人向けAIアシスタントの高度化などを挙げている。例えば、ECサイトのUI変更が購入プロセスに与える影響を、何百ものシナリオで自動テストしたり、経費精算システムへの入力や承認申請といった定型業務を完全に自動化したりすることが可能になる。

これは、ヒューマン・コンピュータ・インタラクション（HCI）におけるパラダイムシフトの始まりかもしれない。我々はキーボードやマウスという物理的なインターフェースを介してコンピュータに意図を伝えてきたが、将来的には「何をしたいか」を自然言語で告げるだけで、AIエージェントがその意図を汲み取り、最適なUI操作を代行してくれる。そんな未来が、すぐそこまで来ている。

もちろん、セキュリティやプライバシー、AIの誤操作による意図しない結果のリスクなど、解決すべき課題は山積している。しかし、AIが人間と同じ「画面」を見て協働するこの技術は、私たちの生産性と創造性を未知の領域へと引き上げる、計り知れないポテンシャルを秘めていることは間違いないだろう。

Sources

Google: Introducing the Gemini 2.5 Computer Use model