GoogleがWebブラウザを自動操作できるAIエージェント「Project Jarvis」を開発していることが明らかになった。The Informationの報道によると、同システムは日常的なWeb作業を自動化し、ユーザーに代わってタスクを実行することを目指している。
Chromeに特化したAIアシスタント
Project Jarvisは、Googleの次世代言語モデル「Gemini」を基盤に開発されている新しいAIシステムだ。特筆すべきは、Google Chromeブラウザに特化した設計になっている点である。システムはブラウザ画面のスクリーンショットを継続的に取得・分析し、必要に応じてクリックやテキスト入力などの操作を行う。
想定される用途は幅広く、Webでの情報検索、商品購入、航空券の予約など、一般的なブラウザ操作を必要とするタスクを自動化できるという。
現状の課題と展開
プロジェクトに詳しい3名の情報提供者によると、現段階では以下のような課題が存在するという:
- 各アクション実行前に「数秒間」の処理時間が必要
- パスワードやクレジットカード情報など、機密データの取り扱いに関する懸念
- システムの信頼性と安全性の確保
Googleは2024年12月に予定されている次世代Geminiの発表と同時期にProject Jarvisを公開することを検討しているようだ。ただし、一般公開ではなく、限定的なテスターによるバグ検証から開始する可能性が高いとされる。
MicrosoftやAnthropicなど、競合たちの動き
Project Jarvisの開発は、主要AIプレイヤーたちが言語モデルの性能向上から実用的なアプリケーション開発へと軸足を移している大きな潮流を象徴している。特に注目すべきは、Anthropicが最近発表したClaude 3.5 Sonnetの「computer use」機能との類似性だ。
Anthropicのアプローチは、特定のタスクに特化したツールを開発するのではなく、人間が行うような一般的なコンピュータ操作をAIに習得させることを目指している。Claude 3.5 Sonnetは、画面を見て、カーソルを動かし、ボタンをクリックし、テキストを入力するという、人間に近い形でコンピュータを操作することが可能だ。OSWorldのベンチマークでは、スクリーンショットのみを使用したタスクで14.9%のスコアを記録し、次点の7.8%を大きく引き離している。
一方、GoogleのProject Jarvisは、より焦点を絞ったアプローチを採用している。Chromeブラウザに特化することで、一般消費者向けのユースケースに特化した開発を進めている点が特徴的だ。この違いは両社の戦略の違いを端的に表している。Anthropicが開発者向けに幅広い用途でのコンピュータ操作を目指すのに対し、Googleは日常的なWeb作業の自動化という、より具体的な価値提供を目指している。
しかし、両システムは共通の課題も抱えている。Anthropicは現状のcomputer use機能について「試験的で、時に扱いにくく、エラーが発生しやすい」と認めており、GoogleのProject Jarvisも同様に、各アクション実行前に「数秒間」の処理時間を要するという課題を抱えている。
業界全体を見渡すと、MicrosoftのCopilot VisionやAppleのIntelligence構想など、各社がAIによるコンピュータ操作の実現に向けて独自のアプローチを模索している。中でもGoogleのアプローチは、ブラウザという最も一般的なインターフェースに焦点を当てることで、より早期の実用化を目指していると見ることができる。
ただし、こうした開発競争の背景には、より深い文脈も存在する。元Google UXストラテジストのScott Jenson氏が指摘するように、GoogleのProject Jarvis開発には、自社のエコシステムを守るという防衛的な側面も存在する。競合他社のAIアシスタントによって、検索やブラウジングの主導権を奪われることへの危機感が、開発を加速させている可能性は否定できない。
Xenospectrum’s Take
Project Jarvisの開発は、AIアシスタントの進化における重要な一歩と言える。特にChromeブラウザに特化することで、一般消費者向けのユースケースに焦点を当てた点は注目に値する。現状では処理速度や安全性に課題があるものの、これらは開発過程で改善される可能性が高い。
ただし、元Google UXストラテジストのScott Jensonが指摘するように、このプロジェクトにはGoogleのエコシステム防衛という側面も存在する。競合他社に先を越されることへの危機感が、開発を加速させている可能性は否定できない。
今後は、プライバシーとセキュリティの確保、ユーザー体験の最適化、そして具体的なユースケースの確立が、Project Jarvisの成功を左右する重要な要素となるだろう。
Source
- The Information: Google Preps AI That Takes Over Computers
コメント