Googleは、同社が「最もインテリジェント」と位置づける最新AIモデル「Gemini 2.5 Pro」を発表した。このモデルは、応答前に内部で「思考」する能力を備え、複雑なタスクにおける推論やコーディング性能を大幅に向上させている。Gemini Advancedのサブスクライバー向けに提供が開始された。
Gemini 2.5 Pro登場:Googleの次世代AI
Googleは2025年3月25日(現地時間)、AIモデルファミリーの最新版として「Gemini 2.5」を発表し、その最初のモデルとして「Gemini 2.5 Pro Experimental」の提供を開始した。Google DeepMindの最高技術責任者Koray Kavukcuoglu氏によれば、Gemini 2.5は「思考モデル(thinking model)」と呼ばれる新たなカテゴリーに属し、「大幅に強化されたベースモデルと改良されたポストトレーニングを組み合わせることで、新次元のパフォーマンスを達成した」という。
この発表は、同社が「Gemini 2.0」ファミリーを発表してから約3ヶ月後のことであり、AI開発の急速な進展を示すものだ。Gemini 2.5 Proは、コミュニティ主導のLLM(大規模言語モデル)リーダーボード「LMArena」において、登場と同時に総合カテゴリで首位を獲得し、その能力の高さを印象づけている。
核となる「思考能力」とは
Gemini 2.5シリーズの最大の特徴は「思考モデル(thinking model)」としての設計思想にある。GoogleによればAIにおける「推論(reasoning)」能力とは、単なる分類や予測を超え、「情報を分析し、論理的結論を導き出し、文脈やニュアンスを取り入れ、情報に基づいた決断を下す能力」を指す。
Gemini 2.5 Proの最大の特徴は、応答を生成する前に内部で思考し、推論する能力が強化されている点だ。人間が複雑な問題に取り組むように、問題を複数のステップに分解し、応答する前に慎重に推論を重ねることで、パフォーマンスの向上と精度の改善をもたらすのだ。
Googleは以前から、強化学習や「Chain-of-Thought(思考の連鎖)」プロンプティングといった技術を用いてAIの推論能力向上を探求してきた。Gemini 2.0 Flash Thinkingモデルで導入されたこのアプローチをさらに発展させ、Gemini 2.5では大幅に強化されたベースモデルと改良されたポストトレーニングを組み合わせることで、思考能力をモデル自体に直接組み込んでいる。Google DeepMindのKavukcuoglu氏は、「これにより、性能が向上し、精度が改善される」と説明している。今後、Googleはこの思考能力を全てのモデルに組み込んでいく方針だ。
ベンチマークを席巻する性能

Gemini 2.5 Proは、様々なベンチマークテストで最先端の性能を示している。
- LMArena: 人間の評価に基づくリーダーボードで、競合を大きく引き離して1位を獲得。これは、高品質な応答スタイルを持つ非常に有能なモデルであることを示唆している。
- Humanity’s Last Exam: 数百人の専門家によって設計された、人間の知識と推論の限界をテストするデータセットにおいて、ツールを使用しない評価で18.8%という最先端のスコアを記録した。これは、比較対象とされるOpenAIのo3-mini (14%) やDeepSeek R1 (8.6%) を上回る結果だ。
- 数学・科学分野: GPQAやAIME 2025といったベンチマークでも、推論能力の高さを反映し、トップクラスの成績を収めている。

ただし、一部のベンチマークでは競合に後れを取る側面もある。例えば、ソフトウェア開発能力を測る「SWE-bench Verified」では63.8%(カスタムエージェント設定時)を記録し、OpenAIのo3-miniやDeepSeek R1を上回ったものの、AnthropicのClaude 3.7 Sonnet (70.3%) には及ばなかった。
コーディング能力の大幅な進化
GoogleはGemini 2.5 Proのコーディング性能向上に注力しており、Gemini 2.0から大きな飛躍を遂げたと述べている。
- 具体的な強み: 視覚的に魅力的なWebアプリケーションの作成、AIエージェントによるコーディング(Agentic Code)、コード変換、編集といったタスクで優れた能力を発揮する。
- ベンチマーク: コード編集能力を測る「Aider Polyglot」では68.6%を記録し、OpenAI、Anthropic、DeepSeekのトップモデルを上回った。
- 応用例: 単一のプロンプトからHTML、CSS、JavaScriptを用いたエンドレスランナー風の恐竜ゲームの実行可能コードを一度で生成することに成功したデモも示されている。
100万トークンの長文対応とマルチモーダル
Gemini 2.5 Proは、Geminiファミリーの強みであるネイティブなマルチモーダル(テキスト、画像、音声、動画など複数の種類の情報を扱える能力)と長大なコンテキストウィンドウを継承・強化している。
- コンテキストウィンドウ: 提供開始時点で100万トークン(約75万語に相当、これは「指輪物語」全シリーズよりも長い)のコンテキストウィンドウに対応。これにより、膨大な量の文書、音声、動画、さらにはコードリポジトリ全体を一度に読み込み、理解することが可能となる。Googleは近日中にこれを200万トークンへ拡張する予定だ。
- AIエージェントへの応用: この長大なコンテキスト処理能力と高度な推論能力は、自律的にタスクを実行するAIエージェントの開発基盤として極めて重要である。大量のデータを処理し、複雑な問題を解決する能力が向上するため、エージェントがデータ理解やツール活用をより効果的に行えるようになる。
Google AI Studioのプロダクトマネージャー、Logan Kilpatrick氏は「より高いレート制限と課金を持つ最初の実験的モデル」としてGemini 2.5 Proの特性をXで強調している。
提供開始と今後の展開
Gemini 2.5 Pro Experimentalは、以下のプラットフォームで利用可能となっている。
- Gemini Advanced: 月額20ドルのサブスクリプションプランのユーザーは、デスクトップおよびモバイルのGeminiアプリ(Web版先行、モバイルアプリは通常数週間遅れて対応)でモデルを選択できる。
- Google AI Studio: 開発者や企業ユーザーは、この開発プラットフォームで実験を開始できる。レート制限(単位時間あたりのリクエスト数上限)が従来より高く設定され、課金も可能になる最初の実験的モデルとなる見込みだ。
- Vertex AI: Googleのマネージド機械学習プラットフォームでも、今後数週間以内に利用可能になる予定。
APIの価格設定については、今後数週間以内に詳細が発表される予定であり、これにより大規模な本番環境での利用が可能になる。
XenoSpectrum’s Take
GoogleによるGemini 2.5 Proの投入は、AIの「思考能力」を巡る開発競争が新たな段階に入ったことを示している。OpenAIの「o」シリーズ、AnthropicのClaude、そして新興のDeepSeekなどが同様の能力を持つモデル開発を進める中、Googleは明確な対抗軸を打ち出してきた。
LMArenaでの首位獲得やHumanity’s Last Examでの高スコアは、Gemini 2.5 Proの汎用的な推論能力の高さを裏付けるものだ。特に、コーディング性能の向上は目覚ましく、AIエージェントによる自律的な開発作業といった応用への期待を高める。100万トークン(将来は200万)という巨大なコンテキストウィンドウも、大量の情報を処理する必要がある複雑なタスクにおいて大きなアドバンテージとなるだろう。
一方で、SWE-Benchのような特定のベンチマークで競合に劣る点も見られ、万能ではないことも示唆されている。また、「思考する」モデルは一般に計算コストが高くなる傾向があり、今後発表される価格設定が普及の鍵を握るだろう。
とはいえ、Gemini 2.5 Proは、AIが単なる情報検索や生成ツールから、より複雑な問題解決や自律的なタスク実行が可能な「エージェント」へと進化していく上で、重要なマイルストーンとなることは間違いない。このモデルが開発者や企業によってどのように活用され、どのようなイノベーションを生み出すのか、今後の動向を注視していきたい。
Source