OpenAIは、推論特化AIモデル「o3-mini」の提供を開始した。同モデルは2024年12月に予告されていた新シリーズの最新バージョンで、STEM(科学・技術・工学・数学)分野での高度な問題解決能力を持つことが特徴とされている。今回、OpenAIの推論モデルとしては初めて無料ユーザーにも開放されており、API価格も前世代比63%削減し、中国DeepSeekのR1モデルとの競合激化に対応している。
高い性能と効率性を実現
o1-miniと大きく異なる点は、「推論努力レベル」を低・中・高から選択可能な新アーキテクチャを採用していることだろう。ユーザーは低・中・高の3段階から選択でき、精度と速度のバランスを用途に応じて最適化できる。中程度の推論努力レベルでは、フルサイズのo1モデルと同等の性能を発揮するという。
推論努力レベルの「中」設定時、既存モデルのo1-miniと比較して、複雑な実世界の問題における重大なエラーを39%削減し、24%の応答速度向上を実現。また、外部テスターによる評価では、o1-miniと比較して56%のケースでより優れた回答を提供している。
競合との比較においては、AIME 2024競技数学テストでは高努力レベル設定時、DeepSeek-R1を0.3ポイント上回っている。SWE-benchソフトウェア工学ベンチマークでも0.1ポイント差で優位を示した。ただしGPQA Diamond(低設定)ではR1に及ばず、用途に応じた設定選択が重要と分析される。
コンテキストウィンドウは、200,000トークンを保持し、Google Gemini 2.0の100万トークンには及ばないものの、DeepSeek-R1の128,000トークンと比較すると長文処理では優位となっている。
無料ユーザーはチャットバーの「Reason」ボタンで利用可能。有料プランでは1日150件(従来比3倍)から無制限までの利用枠拡大されている。また、検索機能連携によりWeb情報を引用した最新回答生成が可能となった(プロトタイプ段階)。
安全性と経済性の両立
OpenAIは安全性確保の新たなアプローチとして、「deliberative alignment(熟考的アライメント)」と呼ばれる学習手法をo3-miniに採用した。この手法では、モデルは単に安全性のガイドラインに従うだけでなく、それらの意図や防止すべき害悪について深く理解することが求められる。その結果、センシティブなトピックについての議論においても、過度に制限的になることなく適切な安全性を確保できるという。
この安全性への注力は、競合他社との重要な差別化要因となっている。特に、セキュリティ研究者による最近の調査では、競合のDeepSeek R1モデルが50件の全てのジェイルブレイク(安全性制限の回避)試行に対して脆弱性を示したのに対し、o3-miniはGPT-4oを上回る堅牢性を実証している。
コストの面では、o3-miniは大幅なコスト削減を実現した。具体的な価格設定では、入力トークンあたり0.55ドル、出力トークンあたり4.40ドルという料金体系を採用。これは前モデルのo1-miniと比較して63%の削減となる。ただし、DeepSeek R1の価格設定(入力0.14ドル、出力2.19ドル/100万トークン)と比較すると依然として割高だ。この価格差について、OpenAIは高度な安全性機能の実装に伴うコストであると説明している。
開発者向けに「関数呼び出し」「構造化出力」など実用機能も追加されている。画像分析機能は未対応だが、3段階の推論努力レベル調整により、応答速度(低設定時7.7秒)と精度の最適化が可能となった。
企業ユーザーにとって、この価格差は重要な検討要素となる。特にアメリカやヨーロッパの企業では、DeepSeekが中国企業であることに伴うデータセキュリティ上の懸念から、より高額であってもOpenAIのサービスを選択する傾向がみられる。o3-miniは、こうしたセキュリティ重視のユーザーに対して、コストパフォーマンスの高い選択肢を提供することを目指している。
Source
- OpenAI: OpenAI o3-mini
コメント