Googleは、人工知能(AI)エージェントによってWebブラウザを自動操作する新プロジェクト「Project Mariner」を発表した。同社のDeepMind部門が開発したこの研究プロトタイプは、本日同時に発表されたGoogleの最新フラッグシップAIモデル「Gemini 2.0」を搭載し、Chromeブラウザ上でカーソル操作やフォーム入力などを人間のように行うことができる。
革新的なWebインターフェースの幕開け
Project Marinerは、従来のWebブラウジングの概念を根本から変えようとする野心的な試みである。このシステムは、Chromeブラウザの拡張機能として実装され、ブラウザの右側にチャットウィンドウを配置するというシンプルながら革新的なインターフェースを採用している。
ユーザーがタスクを指示すると、AIエージェントは画面のスクリーンショットを自動的に取得し、それをクラウド上のGeminiに送信して分析を行う。Geminiはその分析結果に基づいて、ブラウザ上での具体的な操作手順を決定し、コンピュータに指示を送り返す。この一連の処理により、AIエージェントはWebサイト上でのカーソル操作、検索、フォーム入力などを人間のように実行することが可能となる。
Google Labs directorのJaclyn Konzelmann氏が行ったデモンストレーションでは、「この買い物リストに基づいてスーパーのショッピングカートを作成して」という指示に対して、AIエージェントがSafewayのWebサイトに自動的にアクセスし、商品を検索してカートに追加するという実用的なタスクが披露された。このプロセスにおいて、AIエージェントは必要に応じて「にんじんは何個必要ですか?」といった具体的な質問をユーザーに投げかけ、より正確なタスクの遂行を実現している。
特筆すべきは、このAIエージェントがWebVoyagerベンチマークテストにおいて83.5%という高い性能を達成したことである。このベンチマークは実世界のWebタスクにおけるエージェントの性能を評価するものであり、このベンチマークテスト結果はProject Marinerが実用レベルに近づきつつあることを示している。ただし、現時点では各操作に約5秒程度の遅延が発生するなど、実用化に向けては改善の余地が残されている。また、システムの性質上、ユーザーはAIエージェントの動作を監視する必要があり、バックグラウンドでの処理は現時点では不可能となっている。
セキュリティと制御を重視した設計思想
Project Marinerの開発において、Googleは安全性とユーザーの制御権を最優先事項として位置付けている。この設計思想は、システムの様々な側面に反映されており、特に重要な機能の制限とユーザーの監視能力の確保という二つの柱を中心に展開されている。
まず、システムには意図的な制限が多層的に組み込まれている。クレジットカード情報の入力やウェブサイトのクッキーの受け入れ、利用規約への同意といった、ユーザーの権利や財産に直接影響を与える可能性のある操作は、完全に制限されている。これは、AIエージェントによる不正な操作や意図しない契約への同意を防ぐための重要な安全機構として機能している。
また、システムの動作範囲も厳密に制御されている。AIエージェントは、ブラウザのアクティブタブでのみ操作が可能であり、バックグラウンドでの実行は許可されていない。DeepMindのチーフテクノロジーオフィサーであるKoray Kavukcuogluは、この制限について「ユーザーがAIエージェントの動作を常に把握できる状態を確保することが重要」と説明している。
システムの動作プロセスにおいても、セキュリティへの配慮が見られる。AIエージェントはブラウザウィンドウのスクリーンショットを取得してGeminiに送信する必要があるが、この機能はユーザーが利用規約で明示的に同意した場合にのみ有効となる。また、取得された画像データの処理はすべてクラウド上で行われ、適切な暗号化と保護措置が施されている。
Xenospectrum’s Take
Project Marinerの登場は、Webインターフェースの大きなパラダイムシフトを予感させる。しかし、現時点での遅さや制限は、この技術がまだ発展途上であることを示している。特に興味深いのは、Googleがウェブサイト運営者への配慮を示しながらも、「将来的にはユーザーとWebサイトの関係性が変化する可能性」を示唆している点だ。これは、デジタル広告やコンテンツ配信の在り方に大きな影響を与える可能性がある。
また、「Jarvis」として開発が進められていた本プロジェクトが、最終的に「Mariner」として発表されたことは、より広い海(マリナー)を目指す、というGoogleの野心を象徴しているようにも見える。競合のAnthropicがすでに同様の機能をベータ版として提供している中、この分野での主導権争いは今後さらに激化するだろう。
Source
コメント