テクノロジーと科学の最新の話題を毎日配信中!!

OpenAI Operator、次世代AI「o3」搭載で性能アップ: GPT-4oから何がどう進化したのか?

Y Kobayashi

2025年5月24日

OpenAIのAIエージェント「Operator」が、同社の最新鋭推論モデル「o3」を搭載し、その能力を飛躍的に向上させたことが明らかになった。これまでGPT-4oを基盤としていたOperatorは、このアップデートにより、Webタスクの自動化における精度、持続性、そして応答品質が大幅に強化されたという。

スポンサーリンク

「AIエージェント」OpenAI Operatorとは? その役割と進化の経緯

OpenAI Operatorは、2025年1月に「リサーチプレビュー」として発表された、いわゆるComputer Using Agent (CUA) だ。ユーザーに代わってWebブラウザを操作し、情報収集、フォーム入力、商品購入、予約手配といった様々なオンラインタスクを自律的に実行することを目的としている。あたかも人間が操作するかのように、Webページを視覚的に認識し、タイピング、クリック、スクロールといったアクションを行うことができるのが特徴だ。

これまでOperatorは、OpenAIの高性能マルチモーダルモデル「GPT-4o」をベースにカスタム調整されたモデルを利用してきた。提供形態は、月額200ドルの「ChatGPT Pro」および「Enterprise」サブスクリプションのユーザーに限定されており、専用のWebサイト(operator.chatgpt.com)を通じてクラウドホストされた仮想ブラウザ上で動作する。

しかし、AIエージェント技術は日進月歩であり、Googleの「Project Mariner」Anthropicの「Computer Use」など、競合も強力なソリューションを次々と投入している。このような背景の中、OpenAIはOperatorのさらなる能力向上を目指し、その頭脳とも言える基盤モデルの刷新に踏み切ったと考えられる。

新たな頭脳「o3」モデルの実力:推論能力の飛躍的向上

今回Operatorに搭載された「o3」は、OpenAIが2025年4月に発表した「oシリーズ」に属する最新の「推論モデル」だ。このoシリーズは、特に複雑な指示の理解、数学的思考、論理的な問題解決といった推論能力に長けているとされる。

GPT-4oも非常に高性能なモデルであるが、o3はこれらの推論タスクにおいて、多くのベンチマークでGPT-4oを凌駕する性能を示すとされている。Operatorがo3を搭載することで、より複雑なWebタスクを正確に理解し、途中で頓挫することなく最後までやり遂げる能力が期待されるわけだ。

ただし、OpenAIの発表によれば、OperatorのAPIバージョンについては、引き続きGPT-4oベースのモデルが提供されるとのことだ。この点については、安定供給やコスト、あるいは特定のAPIユースケースへの最適化といった戦略的な判断が背景にあるのかもしれない。

スポンサーリンク

o3搭載Operatorは何がどう進化したのか? 具体的な性能向上ポイント

では、o3を搭載した新しいOperatorは、具体的に何がどのように進化したのだろうか? OpenAIの公式発表によると、以下の点が明らかになっている。

1. タスク遂行能力の大幅向上:より粘り強く、より正確に

最も注目すべきは、タスク遂行能力そのものの向上だ。OpenAIは、「ブラウザとの対話において、より粘り強く、より正確になり、全体的なタスク成功率が向上した」と説明している。これは、Webサイトの構造変化や予期せぬポップアップなど、自動化を妨げる様々な要因に対して、より柔軟かつ的確に対応できるようになったことを意味するだろう。

この性能向上は、複数のベンチマークテストの結果によっても裏付けられている。主なベンチマークスコアは以下の通りだ。

  • OSWorld(ブラウザベースのタスク完了度を測定):
    • o3 Operator: 42.9
    • GPT-4o Operator: 38.1
    • (OpenAIは、自動評価システムの限界から、実際の改善幅はこれよりも大きく、20パーセンテージポイントに近い可能性があると指摘している)
  • WebArena(Webサイト操作のタスク達成度を測定):
    • o3 Operator: 62.9
    • GPT-4o Operator: 48.1
  • GAIA(一般的なAIアシスタント能力を測定、Webタスクも含む):
    • o3 Operator: 62.2
    • GPT-4o Operator: 12.3

特にGAIAにおけるスコアの劇的な向上は、o3モデルの優れた推論能力がOperatorの総合的なタスク処理能力を大きく引き上げたことを示唆している。

2. 応答品質の向上:より明確に、より網羅的に、より構造化

タスクを実行するだけでなく、その結果や過程をユーザーに伝える際の応答品質も向上した。「応答はより明確で、徹底的で、より良く構造化されるようになった」とOpenAIは述べている。

VentureBeatが紹介したレストラン予約のタスク例では、旧Operatorがある程度の情報を提供したのに対し、新しいo3 Operatorは、利用可能な予約時間、場所、ミシュラン評価、座席に関する注意書きなどを、整理された表形式で、より詳細かつ明確に提示したという。これは、ユーザーが情報を把握しやすくなるだけでなく、AIエージェントとのコミュニケーションをよりスムーズにする上で重要な改善点と言えるだろう。

人間による評価でも、スタイル、包括性、明確さの点でo3ベースのOperatorがGPT-4oベースのものよりも好まれる傾向が示されている。

安全性への取り組みも強化:より賢く、そしてより安全に

AIエージェントが自律的にWebブラウザを操作する上で、安全性は極めて重要な課題だ。OpenAIは、o3 Operatorにおいても多層的な安全アプローチを採用し、さらなる強化を図っている。

1. コンピュータ利用に特化した安全データによるファインチューニング

o3 Operatorは、o3ファミリーの他のモデルと比較して、特に「コンピュータ利用」に特化した追加の安全データセットでファインチューニングされている。これには、モデルがユーザーの指示に対して「確認」を求めるべきか、「拒否」すべきかの判断基準を学習させるためのデータセットが含まれる。これにより、不適切な指示や危険な操作を未然に防ぐ能力の向上が期待される。

2. 具体的な安全性評価結果の向上

OpenAIが公開した「Addendum to OpenAI o3 and o4-mini system card: OpenAI o3 Operator」によれば、o3 Operatorは多くの安全性評価項目でGPT-4o Operatorを上回るか、同等の性能を示している。

  • 不正コンテンツの拒否:
    • 多くのカテゴリでo3モデルと同等、またはGPT-4o Operatorよりも高い拒否率を達成。
  • ジェイルブレイク耐性 (StrongREJECT):
    • o3 Operator: 0.97 (数値が高いほど良い)
    • GPT-4o Operator: 0.37
    • これは、悪意のあるプロンプトによってモデルの安全機能を回避しようとする試みに対する耐性が大幅に向上したことを示す。
  • 有害なエージェントタスクの拒否 (数値が高いほど良い):
    • 不正行為の実行: o3 Operator 1.0 vs GPT-4o Operator 0.97
    • 禁止された金融活動: o3 Operator 1.0 vs GPT-4o Operator 0.97
    • 機密個人データの検索: o3 Operator 1.0 vs GPT-4o Operator 1.0
    • 過剰拒否 (Overrefusals、数値が低いほど良い): o3 Operator 0.13 vs GPT-4o Operator 0.3
  • モデルの誤りに対する確認率:
    • o3 Operator: ユーザーの意図と異なる可能性のあるアクションを実行する前に確認を求める割合が94% (GPT-4o Operatorは92%)。
    • 特に金融取引に関しては**100%**確認を行う。
  • プロンプトインジェクション感受性 (数値が低いほど良い):
    • o3 Operator: 20% (GPT-4o Operatorは23%)
    • Webページ上の悪意のある記述などによって、意図しない操作を誘導されるリスクが低減。

これらの数値は、o3 Operatorがより賢くなっただけでなく、より安全な運用が可能になったことを示している。なお、o3 Operatorはo3モデルのコーディング能力を継承しているものの、ネイティブのコーディング環境やターミナルへのアクセスは持たないとされており、これもリスク管理の一環と考えられる。

既存の「ウォッチモード」(高リスクなWebサイト操作時にユーザーによる監視を必須とする機能)や、ユーザーへの明示的な確認要求といった安全対策も引き続き適用される。

スポンサーリンク

OpenAIの狙い:AIエージェント市場の覇権争い

GoogleやAnthropicといった競合が次々と高性能なAIエージェントを発表する中、OpenAIとしては主力製品の一つであるOperatorの競争力を維持・向上させる必要があり、今回のアップデートに至ったのだろう。

現状、o3搭載OperatorはChatGPT ProおよびEnterpriseユーザー限定の「リサーチプレビュー」という位置づけだが、将来的には月額20ドルの「ChatGPT Plus」サブスクライバー向けにも提供される計画があるようだ。これが実現すれば、より多くのユーザーが高性能なAIエージェントを手軽に利用できるようになる可能性がある。

一方で、OperatorのAPI版が当面GPT-4oベースのままである点は興味深い。これは、API経由での利用においては、安定性やコスト効率、あるいは特定のユースケースへの最適化という観点から、現時点ではGPT-4oが適切であるという判断なのかもしれない。今後の動向が注目される。

o3 Operatorがもたらすインパクトと乗り越えるべき壁

o3搭載Operatorの登場は、企業利用においては、繰り返し行われるWebベースの定型業務の自動化、市場調査データの収集・分析、顧客サポート業務の一部代行など、幅広い応用が考えられる。これにより、従業員はより創造的で付加価値の高い業務に集中できるようになるかもしれない。

一般ユーザーにとっても、オンラインショッピングの最適化、旅行プランの比較検討と予約、煩雑な行政手続きのサポートなど、日常生活の利便性を大きく向上させるツールとなり得る。しかし、月額200ドルという現在のProプランの価格設定は、多くの一般ユーザーにとって依然としてハードルが高いと言わざるを得ない。将来的なPlusプランへの展開や、さらなる価格戦略の見直しが普及の鍵を握るだろう。

そして、AIエージェントがより高度な自律性を持つようになるにつれて、倫理的・社会的な課題もより一層顕著になる。誤作動による損害、悪意のある第三者による不正利用、プライバシー侵害のリスクなど、解決すべき問題は山積している。OpenAI自身もこれらのリスクを認識し、安全対策に注力しているが、技術の進化とともに、社会全体での議論とルール作りが不可欠となるだろう。


Sources

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする