Googleが開発中の次世代AIエージェント「Jarvis」が、Chrome Web Storeへの誤った公開により、その存在が明らかとなった。The Informationの報道によると、このAIは単なる会話型アシスタントを超え、Webブラウザを直接操作して実務的なタスクを遂行できる機能を備えているとされている。
誤って公開された「Jarvis」の実態
以前から噂されていたGoogleのAIエージェント「Project Jarvis」の存在がついに実際に確認された。Jarvisの最も革新的な点は、Webブラウザを介して実世界のタスクを完遂できる能力にある。Chrome Web Storeに一時的に掲載された説明によれば、このAIは「ユーザーと共にWebをサーフィンする有用なコンパニオン」として位置づけられている。食料品のオンライン購入、航空券の予約、さらには複雑なリサーチ作業まで、人間が通常行うWeb上での作業を自動的にこなすことができるという。
具体的な動作としては、Jarvisはコンピュータ画面の定期的なスクリーンショットを取得し、画像認識技術を用いて画面上の要素を理解。ボタンのクリックやテキストフィールドへの入力など、人間さながらの操作を自律的に実行する仕組みを採用している。
Googleは当該プロトコルを午後までにストアから削除したものの、12月に予定されている正式発表に向けて開発を進めていることが確認された。発表時期は、同社の最新の大規模言語モデルの発表と時期を同じくする見込みとのことだ。
コンピュータの自動操作という新領域において、Googleは既に熾烈な競争に直面している。Anthropicが先月パブリックベータ版を開始したClaude AIは、既にテキスト入力やカーソル移動、ボタン操作などの基本的な機能を実装している。また、OpenAIのChatGPTも検索機能を強化しており、この分野での主導権争いが加速することは確実である。
Xenospectrum’s Take
今回の誤公開は、AIによるデジタルタスク自動化の新時代の幕開けを告げるものである。特に注目すべきは、GoogleがAIにWebブラウザの直接制御という強力な権限を付与する決断を下したことだ。これは、デジタルアシスタントの概念を根本から覆す可能性を秘めている。
しかし、この革新的なアプローチには慎重な検討が必要な課題も存在する。スクリーンショットベースの操作方式は、ユーザーのプライバシーとセキュリティに関する新たな懸念を引き起こす可能性がある。また、金銭取引や個人情報の取り扱いを伴うタスクにおいて、AIの判断をどこまで信頼できるのかという問題も残されている。12月の正式発表では、これらの懸念に対するGoogleの対応策が注目される。
Sources
- The Information: Google Accidentally Reveals ‘Jarvis’ AI That Takes Over Computers
コメント