OpenAIが12日間の新製品発表イベント「shipmas」の最終日に、次世代推論モデル「o3」とその軽量版「o3-mini」を発表した。o3は前モデルのo1を大きく上回る性能を示し、特定条件下では人工知能の究極の目標とされるAGI(Artificial General Intelligence:汎用人工知能)に近づく成果を達成したという。
驚異的なベンチマーク結果が示す性能向上
OpenAIの最新の推論モデル「o3」は思考に有する推論時間を、「低、中、高」の3段階で任意に設定することができ、それによってパフォーマンスを最適化する事が可能になっている。そして推論時間が長くなればパフォーマンスは向上する。これは高度なパフォーマンスを有するo3のそれに伴う高コスト問題に対処する物であるが、これに関しては後述する。
そして、o3の性能評価において最も注目すべきは、AGI到達度を測る指標として知られるARC-AGIでの成果だ。推論時間を最高に設定した際に、87.5%というスコアを記録し、低計算設定時でさえもo1の3倍の性能を示している。この結果は、AIがこれまで困難とされてきた訓練データ外での新しいスキル獲得能力において、大きな進展があったことを示している。

数学分野での成果は特に顕著で、2024年のAmerican Mathematical Olympiad(AIME)において96.7%という驚異的な正解率を達成した。解けなかったのはたった1問のみだったのだ。この結果は、o3が高度な数学的推論能力を獲得していることを実証している。さらに注目すべきは、これまでAIモデルが2%の壁すら超えられなかったEpochAIのFrontier Mathにおいて、o3が25.2%というスコアを記録したことだ。この飛躍的な性能向上は、複雑な数学的概念の理解と応用において、質的な転換点に達した可能性を示唆している。

ソフトウェア開発分野においても、o3は目覚ましい成果を上げている。SWE-Bench Verifiedにおいて前モデルのo1から22.8ポイントもの大幅な性能向上を達成。さらに、競技プログラミングの指標であるCodeforces ratingでは2727という高スコアを記録し、OpenAIのチーフサイエンティストのスコア2665すらも上回る結果となった。OpenAIのo3は、これまでのAIがなし得た単なるコード生成という領域を超えて、複雑なアルゴリズムの設計や最適化において人間の専門家レベルの能力を発揮しつつあると言えるかもしれない。

科学分野においても、o3は従来のAIモデルの限界を打ち破る性能を示している。PhD級の専門的な科学的問題を扱うGPQA Diamondにおいて87.7%というスコアを達成したが、これは、各分野のPhD保持者の平均スコアである約70%を大きく上回る結果となった。科学分野においてもo3が、専門家レベルの知識を効果的に活用できることを示す結果と言えるだろう。

これらの包括的なベンチマーク結果は、o3が単に既存の性能記録を更新しただけでなく、AIの能力において質的な転換点に達した可能性を示唆している。特に、複雑な推論と問題解決を要する課題での顕著な性能向上は、AIが人間の専門家レベルの思考プロセスにより近づいていることを示している。
推論の仕組みとコスト課題
o3の革新的な特徴は、「private chain of thought(私的思考連鎖)」と呼ばれる独自の推論メカニズムにある。このシステムは、従来の言語モデルが単に保存されたパターンを検索して回答を生成する方式とは一線を画したもので、代わりに、与えられた問題に対して複数の関連プロンプトを生成し、それらを相互に検証しながら段階的に推論を深めていく。この過程で、モデルは自身の思考プロセスを明示的に「説明」しながら、最も信頼性の高い解答を導き出す。
François Chollet氏の分析によると、o3の動作原理はGoogleのAlphaZeroチェスプログラムに類似している。可能な解決策を体系的に探索し、最適な方法を見出すまで methodical なアプローチを取る点が特徴だ。この徹底的な探索プロセスにより、物理学、科学、数学などの分野で従来のモデルを上回る信頼性を実現している。
しかし、この高度な推論能力には大きなコストが伴う。o3の高効率版でさえ、1回のタスク実行に約20ドルのコストが発生する。これは100件のテストタスクで2,012ドル、400件の公開タスク全体では6,677ドル(平均して1タスクあたり約17ドル)という相当な費用となる。さらに低効率版では、高効率版の172倍もの計算能力を必要とし、1タスクあたり33万から111万トークンを処理する必要がある。この処理には約1.3分の計算時間を要し、コストは高効率版をさらに大きく上回る。
OpenAIはこの課題に対応するため、上述したように、o3ではユーザーが計算時間を調整することが可能な設計を採用している。ユーザーは低・中・高の3段階から計算パワーを選択できる。計算パワーが高いほどモデルの性能は向上するが、それに比例してコストも増加する。この柔軟な設計により、ユーザーは用途に応じてコストと性能のバランスを最適化できる。
特筆すべきは、従来のAIモデルと比較して処理に要する時間が数秒から数分長くなる点だ。これは「思考」のプロセスに時間を要するためだが、その代償として従来のモデルでは困難だった複雑な推論タスクでより信頼性の高い結果を得ることができる。この処理時間とコストの増加は、より高度な知的作業を行うAIの実現に必要な代償と見ることもできる。
このコスト構造は、o3の実用化に向けた重要な課題となっている。特に、大規模なデータ処理や継続的な利用を必要とするビジネスアプリケーションにおいて、現在のコスト水準は大きな障壁となる可能性がある。OpenAIがこの課題にどのように対応し、コストと性能のバランスを最適化していくのか、今後の展開が注目される。
製品展開と安全性への取り組み
OpenAIは2025年1月末にo3-miniの一般提供を開始し、その後にフルバージョンのo3をリリースする計画だ。o3-miniは低・中・高の3段階の計算設定を提供し、中程度の設定でもo1を上回る性能を示している。
安全性については、新たに「deliberative alignment(熟考的整合)」と呼ばれる手法を導入。これにより、AIモデルが安全性に関する判断をステップバイステップで行うことを可能にしたとのことだ。
Source
- OpenAI(YouTube): OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12