Google、思考予算付きGemini 2.5 Flashを開発者向けに公開 - 速度・コストと高度な推論を両立

Googleは、同社のAIモデルファミリー「Gemini」の最新版として、「Gemini 2.5 Flash」のプレビュー版を開発者向けにリリースした。この新モデルは、従来のFlashモデルが持つ高速性と低コストを維持しながら、「思考予算（Thinking Budget）」と呼ばれる新機能により、高度な推論能力を提供することが最大の特徴だ。開発者はこの機能を通じて、アプリケーションの要件に応じてAIの性能とコストのバランスを柔軟に調整することが可能になる。Gemini 2.5 Flashは、Google AI StudioおよびVertex AIを通じて利用できるほか、一般ユーザー向けのGeminiアプリにも実験的機能として導入される。

Gemini 2.5 Flashとは？ – 速度と「思考」能力の新たな融合

Gemini 2.5 Flashは、Googleが提供するAIモデル「Gemini」ファミリーに属する最新モデルの1つであり、特に、高速な応答速度と低コストで知られる「Flash」シリーズの最新版として位置づけられている。

従来のGemini 2.0 Flashの強みであった速度と効率性を引き継ぎつつ、Gemini 2.5 Flashでは「推論能力」が大幅に強化された。これは、単に質問に対して即座に回答を生成するだけでなく、応答前に一種の「思考」プロセスを実行する能力を持つことを意味する。

Googleによると、この思考プロセスにより、モデルはユーザーからの要求（プロンプト）をより深く理解し、複雑なタスクを小さなステップに分解し、より計画的で質の高い応答を生成できるようになったという。特に、多段階の論理的思考を必要とする数学の問題や、研究論文の分析といった複雑なタスクにおいて、その効果が期待される。

「思考予算 (Thinking Budget)」とは？ – 性能とコストを自在に調整

Gemini 2.5 Flashの最も注目すべき新機能が「思考予算（Thinking Budget）」だろう。これは、開発者がAIモデルの「思考」の深さ、すなわち推論プロセスにどれだけのリソース（トークン）を費やすかを制御できる仕組みだ。

仕組みと設定方法

開発者は、モデルが応答を生成する前に「思考」するために使用できるトークンの最大数を、0から24,576トークンの範囲で設定できる。この設定は、Google AI StudioやVertex AIのインターフェース上にあるスライダー、またはAPIのパラメータを通じて行うことが可能だ。

効果とメリット

思考予算を増やすほど、モデルはより深く考え、複雑な問題をより正確に解決できるようになる。つまり、応答の質が向上する傾向がある。一方で、思考プロセスには計算リソースと時間が必要となるため、予算を増やすと応答速度（レイテンシ）が低下し、コストが増加する可能性がある。

逆に、思考予算を少なく設定すれば、応答速度は速くなり、コストも抑えられる。特に、思考予算を「0」に設定した場合、Gemini 2.5 Flashは従来のGemini 2.0 Flashと同等のコストおよびレイテンシで動作するとGoogleは説明している。これにより、開発者は既存の2.0 Flashアプリケーションからのスムーズな移行も可能になる。

自動調整機能

開発者が明示的に思考予算を設定しない場合、Gemini 2.5 Flashはプロンプトの内容を解析し、タスクの複雑さに応じて必要な思考量を自動的に判断する機能も備えている。

具体例：思考レベルに応じたタスク
Googleは、思考予算の大小が適したタスクの例を挙げている。

最小限の推論（低予算）:
- 「”Thank you”をスペイン語で」
- 「カナダにはいくつの州がありますか？」
  （単純な知識検索や翻訳）
中程度の推論（中予算）:
- 「2つのサイコロを振って合計が7になる確率は？」
- 「私の勤務時間（週5日9時-18時）とバスケットボールジムの利用可能時間（月水金9-15時、火土14-20時）を考慮して、平日に合計5時間バスケができるスケジュールを作成してください。」
  （簡単な計算や条件に基づく計画立案）
高度な推論（高予算）:
- 複雑なデータセットの詳細な分析レポート作成
- 特定の要件を満たすPython関数のコーディング
  （多段階の論理、深い分析、創造的な生成）

このように、思考予算機能は、簡単な応答生成から複雑な問題解決まで、ユースケースに応じて最適なバランスを見つけるための強力なツールとなる。Googleはこのモデルを「初の完全なハイブリッド推論モデル」と呼び、思考機能のオン・オフや予算設定による柔軟性を強調している。

開発者向け情報：提供プラットフォームとスペック

Gemini 2.5 Flashのプレビュー版（モデルID: gemini-2.5-flash-preview-04-17）は、以下のプラットフォームを通じて開発者に提供される。

Google AI Studio: Webベースの対話型開発環境
Vertex AI: Google Cloudのフルマネージド機械学習プラットフォーム

主な技術仕様は以下の通りである（プレビュー版時点）。

レート制限:
- 有料ティア: 1000 RPM (Requests Per Minute) / 10,000 RPD (Requests Per Day)
- 無料ティア: 10 RPM / 500 RPD
知識カットオフ: 2025年1月（比較的新しい情報まで学習済み）
入力モダリティ: テキスト、画像、動画、音声（マルチモーダル入力に対応）
出力モダリティ: テキスト
コンテキストウィンドウ: 100万トークン（非常に長い文脈を扱える）
最大出力長: 64,000トークン

Googleは、このプレビュー版を通じて開発者からのフィードバックを収集し、今後さらに改善を重ねた上で、本番環境での利用に適した一般提供（GA）を目指すとしている。

価格設定：思考の有無でコストが変動

Gemini 2.5 Flashの価格設定は、思考予算機能の利用有無によって異なる点が特徴である。

思考なし（思考予算=0）の場合:
- 入力トークン: $0.15 / 100万トークン
- 出力トークン: $0.60 / 100万トークン
  （従来のGemini 2.0 Flashと同等の価格帯）
思考あり（思考予算>0）の場合:
- 入力トークン: $0.15 / 100万トークン（変更なしと推測される）
- 出力トークン: $3.50 / 100万トークン
  （思考プロセスに伴うコスト増が出力トークン単価に反映される形）

この価格体系により、開発者はコストを意識しながら、必要な場合にのみ高度な推論能力を活用できる。

性能評価：ベンチマークと他モデル比較

Googleおよび外部のレポートによると、Gemini 2.5 Flashは、前バージョンの2.0 Flashと比較して、特に推論能力において大幅な性能向上を達成している。

Humanity’s Last Exam ベンチマーク:
- Gemini 2.5 Flash: 12.1%
- Gemini 2.0 Flash: 5.1%
  （数学、人文科学、自然科学などの難問に対する解決能力を示す指標で、2倍以上のスコア向上）
価格性能比:
Googleは、2.5 Flashが市場において優れた価格性能比を持つモデルであると主張している。
LMArena（チャットボット評価リーダーボード）:
「Hard Prompts」カテゴリにおいて、Gemini 2.5 Proに次ぐ高い性能を示しているとされる。
他社モデルとの比較:
ベンチマーク比較では、Gemini 2.5 Flash（プレビュー版）はAnthropic社のClaude 3 SonnetやGrok-1といったモデルと比較しても健闘している。一方で、OpenAIが最近リリースしたGPT-4o（発表時の情報ではo4-miniという名称で比較されている可能性あり）と比較すると一部ベンチマークでは劣るものの、コスト面での優位性があると指摘されている。

これらの結果は、Gemini 2.5 Flashが、低コストモデルでありながらも、高度なタスクに対応できる潜在能力を持っていることを示唆している。

Geminiアプリへの展開 – 一般ユーザーも最新AIを体験可能に

開発者向けプラットフォームに加えて、Gemini 2.5 Flashは一般ユーザー向けの「Gemini」アプリ（Web版、モバイルアプリ）にも「Gemini 2.5 Flash (experimental)」として導入される。

自動思考調整: アプリ版では、ユーザーが思考予算を手動で設定することはできない。代わりに、入力されたプロンプトの複雑さに応じて、モデルが必要な思考量を自動的に調整する。
既存機能との連携: ファイルアップロード機能や、各種Gemini拡張機能（Google Workspace連携など）は、この新しいモデルでも引き続き利用可能である。
モデルの置き換え: これまで提供されていた「Gemini 2.0 Flash Thinking (experimental)」は、今回の2.5 Flashに置き換えられる。
新機能「Canvas」: Googleの発表では、ドキュメントやコードの編集・改良をインタラクティブに行える新機能「Canvas」と連携して利用できる点も言及されている。

これにより、一般ユーザーも、より高度な推論能力を持つ可能性のある最新AIを手軽に試すことができるようになる。

Xenospectrum’s Take

Gemini 2.5 Flashのプレビュー版リリースは、AIモデル開発における重要な進展を示している。速度とコスト効率を重視する「Flash」モデルの系譜に、制御可能な高度な「思考」能力を組み込んだことは、AIの応用範囲を広げる可能性を秘めている。

特に「思考予算」という革新的な機能は、開発者にとって、アプリケーションの要件に合わせて性能、コスト、レイテンシの最適なバランス点を見つけるための新たな選択肢となるだろう。

Googleは今後、開発者からのフィードバックを元にGemini 2.5 Flashの改良を進め、正式リリースを目指すとしている。このモデルがAI開発のエコシステムにどのような影響を与え、どのような新しいアプリケーションを生み出すのか、今後の動向が注目される。

Source

Google: Developers can now start building with Gemini 2.5 Flash.