ブラウザ開発企業のOperaは、ユーザーの指示に従ってブラウザ内のタスクを自動実行するAIエージェント「Browser Operator」を発表した。ショッピングやチケット予約などをAIが代行するこの機能は、「エージェンティックブラウジング」と呼ばれる新しいパラダイムを示し、ブラウザの役割を根本から変える可能性を秘めている。
Browser Operatorの機能と使用方法
Browser Operatorは、Operaブラウザに統合されたAIエージェントで、ユーザーの自然言語による指示に基づいてWeb上のタスクを実行する。公開されたデモ動画では、「Browser Operator」が以下のタスクを実行する様子が紹介されている。
- 旅行プランニング: チケット予約に続き、航空券やホテルをAIが調査し、提案。
- オンラインショッピング: 「メンズサイズ10の白いNikeの靴下を12足探して購入する」というプロンプトに対し、複数のショッピングサイトを横断的に検索し、条件に合致する商品をリストアップ。ただし、デモでは決済処理はユーザー自身が行う必要がある模様だ。
- チケット予約: サッカーの試合チケットを、座席位置や価格帯を指定して予約。
これらのデモは、「Browser Operator」が複雑なタスクを複数のステップに分解し、 それらを順次実行する能力を示すものだ。
ユーザーはOperaのサイドバーまたはコマンドラインに指示を入力するだけで、Browser Operatorが理解し、必要なWebページを開いて目的のタスクを実行する。この過程でAIはユーザーのブラウザにすでに保存されているログイン情報やCookie設定を利用するが、クレジットカード情報などの機密データを入力する必要がある場合は、ユーザーに介入を求める。

「Browser Operator」の技術的特徴
Browser Operatorの技術的特徴は、従来のAIアシスタントとは異なるアプローチにある。多くのAIソリューションがスクリーンショットやビデオキャプチャを使用してWebページを「見る」のに対し、Browser Operatorはブラウザのネイティブ機能として、DOMツリーとブラウザレイアウトデータという、Webページのテキスト表現を直接利用する。
これにより、視覚的に見えていない要素(ページの下部や、Cookie承認などのポップアップダイアログ)とも対話できる利点がある。また、ページ全体にすぐにアクセスできるため、スクロールの必要がなく、タスク完了までの時間が短縮される。
プライバシーの観点では、Browser Operatorはユーザーのブラウザ内でローカルに動作し、操作データをクラウドにアップロードしない。Operaによれば、ユーザーが資格情報やクレジットカード情報を入力する際、そのデータはAIによって処理されず、直接Webサイトに送信される。AIがWebサイトの内容を再び読み取るのは、ユーザーが「再開」ボタンをクリックした後のみである。
エージェンティックブラウジングの潮流
Operaは今回の機能を「エージェンティックブラウジング」と位置付け、「ブラウザのパラダイムシフト」と表現している。従来、ブラウザはWebコンテンツを表示するだけのツールだったが、Browser Operatorによってユーザーの代理としてタスクを実行する能力を獲得した。
この変化は、ブラウザの役割を「表示エンジン」から「ユーザーのためにタスクを実行するアプリケーション」へと転換させる第一歩とOperaは位置づけている。実際、IT調査会社のGartnerは、2028年までに企業ソフトウェアアプリケーションの33%がエージェンティックAIを含むようになり、日常業務の意思決定の少なくとも15%がAIエージェントによって自律的に行われるようになると予測している。
OpenAIやAnthropicなど他のAI企業もエージェント指向のサービスをリリースしており、AIがユーザーの代わりにタスクを実行する流れは業界全体の潮流となりつつある。Operaは、タブ、アドレスバーでの検索、組み込みVPN、サイドバーのメッセンジャー、ブラウザネイティブAIなど、後に業界標準となる機能を先駆けて導入してきた実績があり、エージェンティックブラウジングでも先行している。
現状での懸念点と制限
一方で、Browser Operatorには懸念点や制限も存在する。まず、デモ映像では処理が4倍速から10倍速で表示されているが、実際の動作はそれよりも遅い。ユーザー自身が直接操作すれば15秒程度で完了できる作業をAIが何倍もの時間をかけて代行するという点では効率性に疑問も残るところだ。
また、Browser Operatorはデモでは実際の取引完了(決済)を行わず、チェックアウト画面で一時停止する。これは安全性を考慮した設計だが、完全な自動化には至っていない。
さらに、AIモデルの利用には数ギガバイトのダウンロードデータが必要になる可能性があり、リソース消費の問題も考えられる。信頼性の面では、AIが本当に最良の取引を見つけたか、ユーザーの指示を正確に実行したかを確認することが難しいという課題がある。
現在のところ、Browser Operatorは一般公開されておらず、プレビュー機能として一部ユーザーのみがアクセス可能な状態だ。
Browser Operatorの今後
Operaによれば、Browser Operatorは近い将来、同社のAI機能ドロッププログラムの一環として一般公開される予定だ。同社は2023年にブラウザにAriaというAIアシスタントを統合して以来、AIを中心としたブラウザの再設計を進めており、2024年3月からはAI機能ドロッププログラムを通じて、ローカルLLM、画像生成、AIタブコマンドなどの実験的なAI機能をテストしている。
Browser Operatorは、こうしたAI統合の流れの中で最も野心的な機能と位置づけられており、Operaはユーザーのブラウジング体験を根本から変えることを目指している。ただし、現時点では課金モデルなど、提供方法の詳細は明らかにされていない。
Sources
コメント