OpenAIは、Webブラウザを人間のように自律的に操作できるAIエージェント「Operator」と、その基盤となる新しいAIモデル「Computer-Using Agent (CUA)」を発表した。このシステムは、APIを介さずにWebサイトのスクリーンショットを解析し、マウスとキーボードで直接操作することが可能という画期的な特徴を持つ。
革新的なインターフェース操作を実現
Operatorがこれまでのシステムと異なる点は、人間が日常的に行うようなコンピュータ操作を忠実に再現できる点にある。従来のAIシステムは、各サービスが提供するAPIを介してしか操作を行えなかったが、Operatorはブラウザ上に表示されたWebページのスクリーンショットを解析し、実際の人間のようにマウスでクリックし、キーボードで入力を行うことができる。
この技術の中核を担うのが、新開発されたComputer-Using Agent(CUA)モデルである。CUAは画像認識モデル「GPT-4o」の視覚能力を基盤としつつ、強化学習によって獲得した高度な推論能力を組み合わせることで、複雑なインターフェース操作を可能にしている。
システムの動作は3段階で構成されている。まず「知覚」フェーズでは、ブラウザの画面をスクリーンショットとして取り込み、画面上の要素や状態を認識する。続く「推論」フェーズでは、chain-of-thought(思考連鎖)と呼ばれる手法を用いて、現在の状況と過去の操作履歴を考慮しながら、次に取るべき行動を決定する。この内部での思考プロセスにより、タスクの遂行精度が向上するという。最後の「行動」フェーズでは、クリック、スクロール、タイピングなどの具体的な操作を実行する。
この仕組みにより、Operatorは例えばOpenTableを通じたレストランの予約や、Instacartでの食料品の注文、DoorDashでのデリバリーの手配など、一般的なウェブサービスを人間と同じように操作することが可能となっている。特筆すべきは、これらのサービスと個別に連携する必要がなく、通常のWebブラウザとして操作できる点だ。この汎用性の高さは、デジタルタスクの自動化に新たな可能性を開くものと期待されている。
また、ユーザーは特定のWebサイトや全サイト共通のカスタム指示を設定することで、Operatorの動作をパーソナライズすることも可能だ。これにより、例えばBooking.comでの航空券予約時の優先条件を事前に設定しておくなど、より効率的なタスク実行を実現できる。
高い性能と実用性を確認
OpenAIが公開したベンチマークテストの結果は、Operatorの現在の性能と今後の課題を明確に示している。とりわけ注目すべきは、実在するWebサイトでの操作性を評価するWebVoyagerテストでの87%という高い成功率だ。このテストではAmazon、GitHub、Google Mapsなどの実サービスを対象に、実際のユーザーが行うような操作タスクを実行させている。この結果は、Operatorが既存のWebサービスを実用的なレベルで操作できることを実証している。
一方、より複雑なタスクを要求するWebArenaベンチマークでは58.1%の成功率を記録した。このテストはeコマース、コンテンツ管理システム(CMS)、ソーシャルフォーラムなどの環境を模したオープンソースのウェブサイトを使用し、複数のステップを必要とする高度なタスクの実行能力を評価する。例えば、ブラウザベースのCRMシステムで顧客データを検索するといった、実務的なシナリオが含まれている。
さらに、オペレーティングシステムの全体的な操作能力を測定するOSWorldベンチマークでは38.1%の成功率となった。このテストはUbuntu、Windows、macOSといった異なるOSでの操作を評価するもので、例えばメールに添付されたPDFファイルの結合といった、より複雑な作業が含まれる。人間の実行成功率が72.4%であることを考慮すると、この分野ではまだ大きな改善の余地が残されているといえる。
興味深いのは、OSWorldテストにおいて「テストタイムスケーリング」と呼ばれる現象が確認された点だ。これは、システムに許容される実行ステップ数が増えるほど、タスクの成功率が向上する傾向を指す。この特性は、Operatorが試行錯誤を通じて問題解決能力を向上させられることを示唆している。
実用面では、Operator上で同時に複数のタスクを実行できる機能も実装されている。例えば、Etsyでカスタムマグカップを注文しながら、同時にHipcampでキャンプ場の予約を行うといった並行処理が可能だ。この機能は、通常のブラウザでの複数タブ操作に相当し、実際の業務シーンでの使用を想定した実用的な設計となっている。
ただし、OpenAIも認めている通り、現段階ではプレゼンテーションの作成やカレンダー管理など、複雑なインターフェースを持つアプリケーションの操作には課題が残されている。また、Reddit等の一部サイトではAIエージェントからのアクセスがブロックされており、FigmaやYouTubeといったリソース負荷の高いサイトや競合サービスへのアクセスも制限されているという実務上の制約も存在する。
安全性を重視した設計
OpenAIは、Operatorの開発において安全性を最優先事項として位置づけ、多層的な保護機構を実装している。特に注目すべきは、誤用防止、モデルの誤動作防止、新興リスクへの対応という3つの主要な安全性課題に対する包括的なアプローチだ。
モデルの誤用を防ぐため、CUAには高度な判断システムが組み込まれている。違法行為や規制対象となる活動に関する要求を自動的に拒否する機能を備え、ギャンブルサイトや成人向けコンテンツ、薬物・武器関連サイトへのアクセスを事前にブロックする。さらに、リアルタイムの自動安全性チェッカーが利用規約への準拠を監視し、違反行為に対して警告やブロックを実施する仕組みも導入されている。
モデルの誤動作対策も徹底されている。メールの誤送信や不適切な商品の購入といった潜在的なリスクに対し、重要な操作の実行前には必ずユーザーの確認を求める設計となっている。特に銀行取引や重要な意思決定を必要とするタスクについては、システムが自動的に辞退する仕組みを採用。さらに、メールや金融サービスなどの重要度の高いサイトでは「ウォッチモード」が自動的に有効となり、ユーザーによる直接の監視下でのみ操作が可能となる。
更には、悪意のあるWebサイトからの攻撃に対する防御機構も組み込まれている。プロンプトインジェクション、ジェイルブレイク、フィッシング試行などの攻撃を検知し、無視するよう設計されている。内部テストでは、早期の赤チーム評価セッションで発見された事例を除き、ほぼすべてのプロンプトインジェクションを特定できたという。
さらに、不審なコンテンツを監視する専用のモニタリングモデルが実装されており、危険な動作を検知した場合にはタスクを一時停止する機能を備えている。加えて、自動検知と人的レビューを組み合わせたパイプラインにより、新たな脅威パターンを数時間単位で特定し、監視システムに反映できる体制を整えている。
プライバシー保護の面でも、ユーザーの利益を最優先する設計思想が貫かれている。トレーニングデータからのオプトアウト機能を実装し、ブラウジングデータや過去の会話履歴を一括で削除できる機能を提供。また、プライバシーに関わる情報の入力時には、システムは自動的にスクリーンショットの取得を停止し、情報の収集を中断する仕組みとなっている。
OpenAIはこれらの安全対策について、完璧なシステムは存在しないことを認識しつつも、研究プレビュー期間中のユーザーフィードバックと厳密なテストを通じて、継続的な改善を進める姿勢を示している。また、エージェント型AIがもたらす新たなリスクと対策手法については、専用のシステムカードを公開し、安全性アプローチの透明性確保にも努めている。
Operatorの今後の展開
OpenAIのCEOであるSam Altman氏は、「このプロダクトは私たちのエージェントへの第一歩である」と述べ、Operatorの重要性を強調。同社の社長であるGreg Brockman氏も「2025年はエージェントの年になる」とコメントしている。
今回OpenAIが発表した「Operator」は月額200ドル(約3万円)のChatGPT Proプランに加入している米国在住のユーザーのみがプレビューでの利用が可能な状態であり、日本のユーザーが利用できるのはまだ先になりそうだ。
今後、OpenAIはOperatorの対象をPlus、Team、Enterpriseユーザーへと拡大し、最終的にはChatGPTに統合することを計画している。また、開発者向けにCUAのAPI提供も予定しており、独自のコンピュータ操作エージェントの開発を可能にする方針だ。
Sources
コメント