GPT-5：AI開発は停滞期に入ったのか？

OpenAIは、同社の新しいフラッグシップモデルであるGPT-5が「AGIへの道のりにおける重要な一歩」を示していると主張している。AGIとは、AI企業のトップや自称専門家がしばしば「もうすぐ実現する」と主張する汎用人工知能のことである。

OpenAI自身の定義によれば、AGIは「経済的価値のある仕事のほとんどで人間を上回る、高度に自律的なシステム」である。これが人類が目指すべきものかどうかはさておき、OpenAIのCEOであるSam Altmanの主張によると、GPT-5がこの方向への「重要な一歩」であるという論拠は、驚くほど平凡に聞こえる。

彼は、GPT-5が前世代のモデルよりもコンピュータコードの記述に優れていると主張している。「ハルシネーション」（誤った情報の生成）が少し減り、指示に従う能力も少し向上したとされている。特に、複数のステップを踏んで他のソフトウェアを使用する必要がある指示の場合に改善が見られる。このモデルはまた、より安全で「追従的」でなくなったとされている。つまり、ユーザーを喜ばせるためだけに欺いたり、潜在的に有害な情報を提供したりすることがなくなったということである。

Altmanは「GPT-5は、あらゆるトピックの専門家、つまり博士レベルの専門家と話しているような感覚を初めて本当に感じさせてくれます」と述べている。しかし、北米の地図を描こうとした以下の試みを見ればわかるように、自分が言っていることが正確かどうかについては、まだ全く理解していない。

Sam Altman: With GPT-5, you'll have a PhD-level expert in any area you need
Me: Draw a map of North America, highlighting countries, states, and capitals
GPT 5:

*Sam Altman forgot to mention that the PhD-level expert used ChatGPT to cheat on all their geography classes… pic.twitter.com/9L9VodXll1
— Luiza Jarovsky, PhD (@LuizaJarovsky) August 10, 2025

また、自身の経験から学習することもできず、科学的（およびその他の）主題に関する難しい質問を含む挑戦的なベンチマーク「Humanity’s Last Exam」では42％の精度しか達成できない。これは、Elon MuskのxAIが最近リリースしたモデルGrok 4が達成したとされる44％をわずかに下回っている。

GPT-5の背後にある主要な技術革新は「ルーター」の導入のようである。これは質問を受けたときにどのGPTモデルに委任するかを決定し、本質的には回答を計算するためにどれだけの労力を投資するかを自問自答する（その後、以前の選択についてのフィードバックから学習して時間とともに改善する）。

委任の選択肢には、GPTの以前の主要モデルと、GPT-5 Thinkingと呼ばれる新しい「より深い推論」モデルが含まれる。この新しいモデルが実際に何であるかは明確ではない。OpenAIは、新しいアルゴリズムに基づいているとも、新しいデータで訓練されたとも言っていない（利用可能なすべてのデータは既にほぼ使用されているため）。

したがって、このモデルは実際には既存のモデルを繰り返しクエリで制御し、より良い結果を生成するまでより懸命に動作させる別の方法に過ぎないと推測することもできる。

LLMとは何か

2017年に遡ると、Googleの研究者たちは、新しいタイプのAIアーキテクチャが人間の言語の構造を支える単語の長いシーケンス内の非常に複雑なパターンを捕捉できることを発見した。

これらのいわゆる大規模言語モデル（LLM）を大量のテキストで訓練することで、データセットに存在するパターンに従って、単語のシーケンスを最も可能性の高い続きにマッピングすることで、ユーザーからのプロンプトに応答できるようになった。人間の知能を模倣するこのアプローチは、LLMがより大量のデータで訓練されるにつれてどんどん良くなり、ChatGPTのようなシステムにつながった。

最終的に、これらのモデルは単に刺激と応答の巨大なテーブルをエンコードしているだけである。ユーザーのプロンプトが刺激であり、モデルは最良の応答を決定するためにテーブルでそれを検索することもできる。このアイデアがいかにシンプルに見えるかを考えると、LLMが他の多くのAIシステムの能力を凌駕してきたことは驚くべきことである。正確性と信頼性の点ではないにしても、確実に柔軟性と使いやすさの点では優れている。

これらのシステムが真の推論を行えるか、私たちと同じような方法で世界を理解できるか、経験を追跡して行動を正しく洗練させることができるか（これらはすべてAGIの必要な要素と言える）については、まだ結論が出ていない。

その間に、汎用LLMを特定のユースケースに対してより信頼性が高く予測可能になるように「飼いならす」ことに焦点を当てたAIソフトウェア企業の産業が生まれた。最も効果的なプロンプトの書き方を研究した後、彼らのソフトウェアはモデルに複数回プロンプトを与えたり、多数のLLMを使用したり、望ましい結果が得られるまで指示を調整したりする。場合によっては、LLMを小規模なアドオンで「微調整」してより効果的にすることもある。

OpenAIの新しいルーターも同じ流れにあるが、GPT-5に組み込まれている点が異なる。この動きが成功すれば、AIサプライチェーンの下流にある企業のエンジニアの必要性はますます少なくなるだろう。GPT-5は、これらの装飾なしでより有用であるため、ユーザーにとってLLMの競合製品よりも安価になるだろう。

同時に、これはLLMがAGIの約束を果たすためにこれ以上改善できない点に達したという認識かもしれない。もしそうなら、AIの現在の限界を克服するにはLLMアーキテクチャを超えて進む必要があると長らく主張してきた科学者や業界の専門家たちの正しさが証明されることになる。

新しいモデルに入れられた古いワイン？

OpenAIのルーティングへの新たな重点は、「推論についての推論」というアイデアに基づいて、1990年代にAIで注目を集めた「メタ推論」を思い起こさせる。例えば、複雑な地図上で最適な旅行ルートを計算しようとしているとする。正しい方向に向かうのは簡単だが、残りのルートについてさらに100の選択肢を検討するたびに、以前の最良のオプションに対して5％の改善しか得られない可能性が高い。旅のあらゆる時点で、どれだけ考える価値があるかという問題がある。

この種の推論は、複雑なタスクをより専門的なコンポーネントで解決できる小さな問題に分解して対処するために重要である。これは、焦点が汎用LLMに移るまで、AIにおける支配的なパラダイムだった。

GPT-5のリリースは、AIの進化における転換を示している可能性がある。このアプローチへの回帰ではないにしても、誰も理解できない思考プロセスを持つより複雑なモデルを作成し続けることの終わりを告げるかもしれない。

それがAGIへの道筋になるかどうかは判断が難しい。しかし、厳密なエンジニアリング手法を使用して制御できるAIの作成に向けて進む機会を生み出すかもしれない。そして、AIの本来のビジョンが人間の知能を複製することだけでなく、それをよりよく理解することでもあったことを思い出させるかもしれない。

本記事は、エディンバラ大学人工知能教授 Michael Rovatsos氏によって執筆され、The Conversationに掲載された記事「GPT-5: has AI just plateaued?」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。

GPT-5：AI開発は停滞期に入ったのか？

LLMとは何か

新しいモデルに入れられた古いワイン？

この記事はいかがでしたか？

光で水素を生む「人工光合成」にブレイクスルー、効率3倍の電極を低コストで製造

ClaudeのAPI費用が激減。システムプロンプトを「画像」として読ませる新ツールの仕組み

寿命を迎えたリチウムイオン電池が95%まで回復。特殊な「電気化学の風呂」が変えるEVの未来

核融合プラズマから直接電気を取り出す：Realta Fusionが史上初の民間実証に成功

量子コンピュータの強力な対抗馬。既存工場で量産可能な「スピントロニクス」とは

ClaudeのAPI費用が激減。システムプロンプトを「画像」として読ませる新ツールの仕組み

量子コンピュータの強力な対抗馬。既存工場で量産可能な「スピントロニクス」とは

核融合プラズマから直接電気を取り出す：Realta Fusionが史上初の民間実証に成功

寿命と容量のジレンマを打破。次世代「リチウム硫黄電池」を実用化へ導く東北大の新材料

SamsungのDRAM価格、90%→55%→20%の鈍化は錯覚、複利で3.5倍に達する仕組み