OpenAIは、主力の大規模言語モデル(LLM)であるGPT-4oの最新アップデートを発表した。この更新により、特に複雑な指示への追従性や技術的な問題解決能力が強化され、有料ユーザー向けに提供が開始された。
指示追従性と技術的問題解決能力の強化
今回のアップデートにおける最も注目すべき点は、GPT-4oがより詳細な指示、特に複数の要求を含むプロンプトを正確に理解し、実行する能力が向上したことである。OpenAIは、モデルが要求された形式に従って出力を生成する精度や、分類タスクにおける正確性が改善されたとしている。
技術分野、特にSTEM(科学・技術・工学・数学)領域とコーディングにおける問題解決能力も大幅に強化された。OpenAIのリリースノートによれば、最新のGPT-4oは次のような進化を遂げている。
具体的には、よりクリーンでシンプルなフロントエンドコードの生成、既存コードの分析と修正箇所の特定精度の向上、そしてコンパイル・実行可能なコーディング出力の一貫性向上などが挙げられる。これにより、開発者のワークフロー効率化が期待される。
さらに、「ファジー(曖昧)」と表現される改善点も報告されている。初期テスターによると、モデルはプロンプトの背後にある暗黙的な意図をより深く理解するようになり、特に創造的・協力的なタスクでその傾向が見られるという。応答もわずかに簡潔かつ明確になり、マークダウン階層や絵文字の使用が減ることで、読みやすく整理された出力が得られるとされる。
ベンチマークでの性能向上と今後の展開
このアップデートの影響は、客観的な指標にも表れている。LMArena(AIモデルの性能をクラウドソースで評価するベンチマークサイト)において、最新のGPT-4o(2025-03-26版)は、2025年1月29日版と比較してスコアを30ポイント向上させ、総合ランキングで2位に浮上した。これは、先月ローンチされた同社のGPT-4.5をも上回る結果である。
特に、従来やや不得手とされていた分野での躍進が著しい。数学カテゴリでは14位から1位へ、難易度の高いプロンプトを処理する「Hard Prompts」カテゴリでは7位から1位へ、そしてコーディングカテゴリでは5位から1位へと、それぞれ順位を大幅に上げた。AI分析企業のArtificial Analysisは、このアップデートによりGPT-4oが競合であるClaude Sonnet 3.7を性能面で上回った可能性を示唆している。
OpenAIのCEOであるSam Altman氏も、自身のX(旧Twitter)アカウントで「GPT-4oをアップデートしました!本当に大きな進歩です。さらなるアップデートも近々予定しています」と述べ、今回の改善が大幅なものであることを強調し、今後の継続的な改良を示唆した。
更新されたGPT-4oモデルは、現在ChatGPTの有料ユーザー(サブスクライバー)が利用可能であり、無料ユーザーに対しても今後数週間以内に展開される予定だ。開発者向けには、APIを通じて chatgpt-4o-latest というモデル名でアクセスできる。OpenAIは、これらの改善を今後数週間でAPIの旧モデルにも適用する計画であるとしている。
Sources
- OpenAI: ChatGPT — Release Notes