Googleは2025年11月19日(現地時間)、同社の最新かつ最も高性能なAIモデル群「Gemini 3」を正式に発表した。主要な性能評価指標(ベンチマーク)で競合を軒並み上回り、独立系分析機関からは「市場で最も知的なモデル」と評されるなど、AI性能競争の勢力図を塗り替える可能性を秘めている。同時に、AIが開発の主役となる新統合開発環境「Google Antigravity」も公開。単なる性能向上に留まらず、AIとの協業スタイルそのものを変革しようとするGoogleの野心的な戦略が浮かび上がる。

AD

Gemini 3、性能評価で競合を圧倒

今回の発表の核心は、Gemini 3 Proが示した圧倒的な性能向上にある。Googleはこれまで、OpenAIのGPTシリーズやAnthropicのClaudeシリーズに対し、性能面で後塵を拝する場面も少なくなかった。しかし、Gemini 3 Proは、その構図を覆すに足る結果を叩き出している。

主要ベンチマークでの記録的スコア

Gemini 3 Proは、AIモデルの性能を測る複数の主要なベンチマークで記録を更新した。

  • LMArena Leaderboard: ユーザーの評価に基づくこのランキングで、Gemini 3 Proは史上初めて1500 Eloの壁を突破する「1501」というスコアを記録した。これは、数時間前に発表されたxAIのGrok-4.1や、Gemini 2.5 Pro(1451 Elo)を大きく引き離す結果である。
  • Humanity’s Last Exam (HLE): 博士レベルの専門知識と推論能力を問うこの難解なテストにおいて、ツールを使用しない条件で37.5%という過去最高スコアを達成。これは、前記録保持者であるGPT-5 Proの31.64%を大幅に上回る。
  • GPQA Diamond: 高度な科学的推論能力を測るベンチマークでは91.9%を記録。
  • MathArena Apex: 数学的能力を測るテストでは23.4%を達成し、Gemini 2.5 Proの0.5%から飛躍的な向上を見せた。

これらの数値は、Gemini 3が単なる知識の量だけでなく、複雑な問題に対する論理的な思考力、すなわち「推論能力」において大きなブレークスルーを遂げたことを示唆している。

独立系機関が認めた「市場のリーダー」

Googleの主張を裏付けるように、独立系のAI分析企業であるArtificial Analysisは、Gemini 3 Proを「AIの新リーダー」と評価した。同社の総合評価インデックスにおいて、Gemini 3 Proは73点を獲得し、これまで9位だったGoogleを市場のトップへと押し上げた。 Artificial AnalysisはX(旧Twitter)で「Googleは初めて、最も知的なモデルを手にした」とコメントしており、客観的な第三者評価としても、今回の性能向上が本物であることが示された形だ。

マルチモーダルとコーディング能力の飛躍

Gemini 3の進化はテキスト処理能力に留まらない。画像、動画、音声などを統合的に理解するマルチモーダル性能も大幅に向上している。

  • MMMU-Pro: 81%(Gemini 2.5 Proは68%)
  • Video-MMMU: 87.6%(Gemini 2.5 Proは83.6%)

特筆すべきは、エージェントとしての実用能力に直結するコーディングとツール使用能力の向上だ。

  • SWE-bench Verified: 実際のソフトウェアのバグを修正する能力を測るテストで76.2%を記録。
  • WebDev Arena: Web開発タスクの評価で1487 Eloを獲得。

これらの結果は、Gemini 3が単に情報を生成するだけでなく、具体的なタスクを計画し、ツールを駆使して実行する「エージェント」としての能力を本格的に備え始めたことを物語っている。

Gemini 3がもたらす新機能と体験

Gemini 3は、単一のモデルではなく、複数の機能やモードから構成されるポートフォリオとして提供される。これにより、ユーザーは目的応じて最適なAI機能を選択できるようになる。

より深く思考する「Deep Think」モード

Gemini 3 Proの上位版として、「Deep Think」モードが発表された。これは、より複雑で困難な問題解決のために設計されており、標準モデルをさらに上回る推論能力を発揮する。Humanity’s Last Examでは、ツールなしで41.0%という驚異的なスコアを記録。このモードは現在、安全性の最終評価段階にあり、完了後にGoogle AI Ultraサブスクライバー向けに提供される予定だ。

テキストを超えた「ジェネレーティブ・インターフェース」

Gemini 3は、ユーザーとの対話形式を大きく変える可能性を秘めている。Google検索のAIモードなどで利用可能になる「ジェネレーティブ・インターフェース」は、その代表例だ。

  • Visual Layout: ユーザーの質問に対し、テキストだけでなく画像や図を効果的に配置した雑誌のようなレイアウトを動的に生成する。
  • Dynamic View: 住宅ローンのシミュレーターや、物理現象を再現するインタラクティブなツールなど、単なる情報提供に留まらない、実用的なウェブアプリをその場で生成する。

これにより、ユーザーは情報を「読む」だけでなく、「触って理解する」という新しい体験を得られるようになる。Googleは、ユーザーテストでこの形式が圧倒的に好まれたとしており、検索体験の大きな転換点となる可能性がある。

日常タスクを自動化する「Gemini Agent」

Gemini 2の時代から示唆されていた「エージェント」としての能力が、Gemini 3で本格的に開花する。「Gemini Agent」は、Gmailやカレンダーといった複数のGoogleサービスを横断し、複数ステップにわたるタスクをユーザーに代わって実行する機能だ。例えば、「受信トレイを整理し、重要なメールの要約を作成して、返信案を3つ提示する」といった複雑な指示を理解し、自律的に実行できる。これは、汎用人工知能(AGI)の実現に向けた重要な一歩と位置づけられるだろう。

AD

開発者体験を再定義する「Google Antigravity」

今回の発表で最も注目すべきものの一つが、全く新しいコンセプトの統合開発環境「Google Antigravity」である。これは、ソフトウェア開発におけるAIの役割を、補助的な「ツール」から主体的な「パートナー」へと昇格させる試みだ。

AIが主役となる「エージェント・ファーストIDE」

Antigravityでは、開発者がAIエージェントに高レベルのタスク(例:「フライト追跡アプリを構築する」)を指示すると、エージェントが自律的に計画を立て、コードを記述し、ターミナルで実行し、ブラウザで動作を検証するという一連のプロセスをこなす。開発者はそのプロセスを監視し、必要に応じて介入する「ミッションコントロール」の役割を担う。これは、従来の開発プロセスを根底から覆すパラダイムシフトと言える。

複数のAIモデルを統合

Antigravityの中核を担うのはGemini 3だが、興味深いことに、AnthropicのClaude Sonnet 4.5やGPT-OSSといった他社製モデルのエージェントもサポートする。これは、Googleが自社モデルに固執するのではなく、開発者にとって最適なツールを提供するオープンなプラットフォームを志向していることの表れかもしれない。

“バイブコーディング”の進化

何かと話題の「バイブコーディング」も、Antigravityによって新たな次元に到達する。これは、厳密な仕様書ではなく、自然言語による曖昧なアイデアや「雰囲気(Vibe)」を伝えるだけで、AIが意図を汲み取って複雑なアプリケーションを構築するというコンセプトだ。Gemini 3の高度な推論能力と指示追従能力により、非プログラマーでもアイデアを形にすることが、より現実的になるだろう。

Gemini 3の未来と課題

今回の発表は、AI業界におけるGoogleの反撃を高らかに宣言するものだ。しかし、その華々しい成果の裏には、冷静に分析すべきいくつかの側面が存在する。

性能とコストのトレードオフ

圧倒的な性能には、相応のコストが伴う。Gemini 3 ProのAPI価格は、20万トークンまでのコンテキストで入力が100万トークンあたり2ドル、出力が12ドルと設定された。これはGemini 2.5 Pro(1.25ドル/10ドル)やGPT-5.1(1.25ドル/10ドル)よりも高価だ。性能向上とコストのバランスを、開発者や企業がどう判断するかが、今後の普及の鍵を握るだろう。一方で、トークンあたりの処理速度はGPT-5.1などを上回ると報告されており、総合的なコストパフォーマンスが問われることになる。

「ハルシネーション」という残された課題

Artificial Analysisは、Gemini 3 Proの性能を高く評価する一方で、知識の正確性テストにおいて、競合モデルよりも高い「ハルシネーション(幻覚)」率を観測したと指摘している。これは、事実に基づかない情報を生成してしまうAIの根深い課題だ。推論能力が向上しても、その出力の信頼性が担保されなければ、実社会での応用、特に金融や医療などのクリティカルな分野での活用には大きな障壁となる。Googleもこの問題を「既知の制限」として認めており、継続的な改善が求められる。

Googleの「フルスタックAI」戦略の真価

今回特に注目したいのは、今回の発表がGoogleの「フルスタック戦略」の強みを明確に示した点だ。

自社設計のAIチップ(TPU)、世界規模のデータセンター、最先端の研究開発(DeepMind)、そして検索やAndroidといった数十億人規模のユーザーを抱えるプロダクト。このハードウェアからソフトウェア、サービスまでを垂直統合する体制こそが、Googleの最大の武器である。

Gemini 3が、発表初日からGoogle検索という巨大プラットフォームに統合されたのは、この戦略の賜物だ。これにより、Googleは新モデルの能力を即座に数十億人のユーザーに届け、膨大なフィードバックを得て、さらなる改善につなげるという、他社には真似のできない強力なサイクルを回すことができる。Antigravityのような野心的なプラットフォームを構築できるのも、この盤石な基盤があってこそだろう。

AD

市場への影響と今後の展望

Gemini 3の登場は、AI業界の競争環境を新たなフェーズへと移行させる。

OpenAI、Anthropicとの競争は新次元へ

これまでAIの性能競争は、主にベンチマークスコアで語られてきた。しかし、Gemini 3が示したのは、単なるスコア競争の終わりと、AIをいかに実用的な「エージェント」として機能させるかという、より高度な次元での競争の始まりではないだろうか。今後は、自律的なタスク実行能力や、ユーザーとのインタラクションの質が、AIプラットフォームの価値を決定づける重要な要素となるだろう。

「AGIへの道」はどこまで進んだか

Google CEOのSunda Pichai氏は、GeminiをAGI(汎用人工知能)実現に向けた取り組みと位置づけている。Gemini 3は、その道のりにおいて重要なマイルストーンだ。複雑なタスクを自律的に計画・実行する能力は、AGIが持つべき中核的な能力の一つである。もちろん、真のAGIへの道のりはまだ遠い。しかし、Gemini 3とAntigravityが示す未来像は、AIが人間の「道具」から「パートナー」へと進化する、その確かな一歩を感じさせるものだった。AI業界の勢力図を塗り替え、我々の働き方や創造性そのものを変革する可能性を秘めたGemini 3の動向から、今後も目が離せない。


Sources