Googleのイメージ生成AI「Nano Banana」三兄弟を使いこなす：モデル選択からプロンプト技法まで

Y Kobayashi2026年3月14日

約 10 分

Googleのイメージ生成AI「Nano Banana」三兄弟を使いこなす：モデル選択からプロンプト技法まで

Googleが画像生成モデル「Nano Banana」ファミリーの使い分けガイドと本格的なプロンプティングガイドを相次いで公開した。Gemini 3ファミリーの推論能力を基盤とするこのモデル群は、2026年3月時点で3世代が並立しており、開発者やクリエイターにとっては「どれを選ぶか」という判断自体が生産性とコストを左右する問いになっている。

本稿では、公式ガイド等に基づき、Nano Bananaの全体像と実戦的な活用法を整理してみた。

3つのモデルが並立する理由

Nano Bananaファミリーは現在、Nano Banana 1（Gemini 3 Flash Image）、Nano Banana 2（Gemini 3.1 Flash Image）、Nano Banana Pro（Gemini 3 Pro Image）の三つで構成される。一見すると「最新最高モデルひとつに絞れば済む」と思いがちだが、Googleがあえて三世代を並立させているのにはコスト設計上の合理性がある。

解像度	Nano Banana 2	Nano Banana Pro
0.5K（512px）	0.045 USD	非対応
1K	0.067 USD	0.134 USD
2K	0.101 USD	0.134 USD
4K	0.151 USD	0.240 USD

同じ1Kでも、Nano Banana ProはNano Banana 2の約2倍のコストがかかる。4K生成でも1.6倍近い差がある。Googleは公式ガイドの中で、Nano Banana 2が「Proの能力の約95%」を発揮できると明言しており、大半のプロジェクトでNano Banana 2をデフォルトに据えることを推奨している。

Nano Banana 1については、「現行パイプラインが問題なく稼働しているなら移行を急ぐ必要はない」というスタンスだ。Thinking Modeを持たない分、単純なタスクでは依然として最速かつ最安のオプションであり続ける。ただし新規開発への採用はGoogleも積極的に勧めていない。

Nano Banana 2の核心：Webから画像を「見て」から生成する

3モデルの中でNano Banana 2を最も特徴づけるのが「Image Grounding」と呼ばれる機能だ。これはモデルが生成の前段階として自律的にWeb上の実画像を検索・参照するプロセスであり、他の画像生成AIとの明確な差別点となっている。

Nano Banana Proはすでにテキスト情報をWebから取得する機能を持っていた。Nano Banana 2はそれをさらに一歩進め、画像そのものをWeb検索して取得し、対象の視覚的な正確さを理解した上で生成を行う。要するに、「フランスのヴォワロンにある歴史的な教会を描いて」とプロンプトを与えると、モデルはまず実際の教会の画像をインターネット上で探し、尖塔の形状や周囲の山々の配置を把握してから出力する。

この機能が力を発揮するのは、特定の建築物や橋といったロケーションや、固有の動植物種の描写だ。たとえば、外見が似た2種類の蝶の違いを図示するプロンプトで、モデルは実際の蝶の写真をリファレンスとして取得し、形態的な差異を正確に描き分けることができる。

ただし、人物の画像検索には対応していない。これはプライバシーおよびセキュリティ上の設計判断であり、現時点では変更される予定は示されていない。また、Image Groundingは現状APIからのみ利用可能で、GeminiアプリのUIからはアクセスできない。実装にはGemini APIの公式ドキュメントまたはPython向けColabノートブックを参照することになる。

コスト最適化の実戦的ワークフロー

Nano Banana 2が512px解像度に対応したことで、コスト設計に直結する新たな選択肢が生まれた。512pxでの生成コストはNano Banana 1と同等水準に抑えられるため、「大量に試して最良の一枚を選ぶ」というフローが現実的になる。

Googleが推奨するワークフローは以下のとおりだ。まず、バッチAPIを使用して（バッチ利用で50%割引が適用される）数十種類のバリエーションを512pxで一括生成する。次に、出力を確認して最良の構図を選択する。最後に、選んだ画像をNano Banana 2でそのまま1K・2K・4Kへアップスケールする。

このアプローチによって、上流の探索コストを大幅に圧縮しながら、最終的な出力品質は最高解像度で確保できる。特にA/Bテストを多用するマーケティングや、キャラクターの一貫性を保ちながら大量のバリエーションを試したいゲーム開発などで有効だ。

極端なアスペクト比が開くコンテンツの可能性

Nano Banana 2のもうひとつの差別化要素は、1:8および1:4という極端なアスペクト比への対応だ。縦横両方向でこれらの比率が選択できる。Nano Banana Proのアスペクト比は最大21:9で、1:4以上の比率は非対応だった。

機能	Nano Banana 2	Nano Banana Pro
最大入力トークン	131,072	65,536
対応解像度	0.5K, 1K, 2K, 4K	1K, 2K, 4K
アスペクト比	1:1〜1:8/8:1まで（14種）	1:1〜21:9（10種）
Image Grounding	対応	非対応
リアルタイムWeb検索	対応	対応

Webバナーや縦長のスクロールコンテンツ、フランコ・ベルギースタイルのコミックレイアウトなど、従来の正方形や16:9の枠組みでは対応できなかった用途が一気に広がる。入力トークン数もNano Banana Proの2倍（131,072トークン）まで対応しており、複雑なマルチモーダルプロンプトでも詰まりにくい。

Thinking Modeの扱い方

Nano Banana 2はThinking Modeを搭載しており、生成前にプロンプトを推論するフェーズを経ることができる。ただしGoogleは「デフォルトはオフのままにすることを推奨する」と明言している。

通常の画像生成では、Thinking Modeはほぼ常に時間とコストを増加させるだけの副作用をもたらす。オンにすべきケースは三つに限定されている。一つ目は、モデルが支離滅裂な結果を出し続ける場合。二つ目は、複雑なインフォグラフィックを生成する場合。三つ目は、Image GroundingとSpacial Reasoningを組み合わせた高度なプロンプトを扱う場合だ。

Nano Banana 1との最大の差異がこのThinking Modeの有無にある点を踏まえると、Nano Banana 2の本質は「廉価版Pro」ではない。推論コストを動的に制御できるモデル設計こそがNano Banana 2固有の価値であり、Thinking Modeのオン／オフによって用途ごとに最適なリソース配分が可能になる。

5つのプロンプティングフレームワーク

Google Cloud Blogが公開した公式プロンプティングガイドは、Nano Bananaシリーズを網羅的にテストした知見をまとめたものだ。ここではそのフレームワークの骨格を示す。

テキストからの生成（Text-to-Image）

参照画像なしでゼロから生成する場合は、キーワードの羅列ではなく「シーンを演出する」感覚でプロンプトを構成することが求められる。Googleが推奨する構文は「被写体＋行動＋場所／文脈＋構図＋スタイル」という5要素の組み合わせだ。単に「ファッションモデルを撮影して」と書くのではなく、「テーラードのブラウンドレスを着た女性モデルが、深いチェリーレッドの無限背景の前でやや斜め向きのポーズ。ミディアムフルショット、中判フィルムのグレイン感とシネマティックライト」というように、各要素を明示的に指定する。

マルチモーダル生成（参照画像あり）

最大14枚の参照画像を同時に入力できるNano Banana 2の強みを活かすには、参照画像の「役割」を明確にする構文が有効だ。「このナプキンスケッチを構造として、この生地サンプルをテクスチャとして、日当たりの良いミニマリストのリビングに置かれた3Dアームチェアのハイファイレンダリングに変換してください」という形式で、各参照がどう機能するかをモデルに伝える。

Webリアルタイム情報の活用

両モデルともリアルタイムのWeb検索情報を反映できる。この機能をプロンプトに組み込む際の構文は「検索指示＋分析タスク＋視覚化指示」の三段構成だ。「現在のサンフランシスコの天気と日付を検索し、その情報をシーンに反映させて（雨なら灰色のトーン）、スマートフォンUIの中に埋め込まれたミニチュア都市のコンセプトとして視覚化してください」という形が典型例だ。

テキストレンダリングと多言語対応

Nano Banana 2はテキスト描画の精度が高く、ポスター、図表、プロダクトモックアップへの文字入れに適している。日本語を含む10以上の言語でのテキスト生成に対応している。コツは、希望する文字列をダブルクォートで囲むこと、使用するフォントスタイルを明示すること、そして「まずテキストコンセプトを会話で生成してから画像生成を依頼する」というアプローチだ。

クリエイティブディレクターとして演出する

最も高度なプロンプティングは、照明設計・カメラ機材・レンズ・フィルムストック・マテリアルという五つの次元で、撮影監督が現場スタッフに指示するように具体的に記述することだ。「F/1.8の浅い被写界深度でローアングルから撮影」「1980年代のカラーフィルムに焼き付けたような粒状感」「海軍色のツイード素材」といった語句は、生成結果の質を一段引き上げるために有効に機能する。

他のGoogle AIとの統合

Nano BananaはGoogleの生成メディアエコシステムに組み込まれており、他のAIモデルとの組み合わせが前提とされている。

Gemini 3とNano Bananaを併用する場合、Geminiがプロンプトの生成と創作方向性のアドバイスを担い、Nano Bananaが画像生成を担う分業が想定される。動画生成モデルのVeo 3.1とはキーフレーム→動画というパイプラインが構築でき、音楽生成モデルのLyriaを加えれば映像と音楽を統合的に生成する環境が整う。Google Cloudのエコシステム上でこれらが一貫したAPIで接続される点は、エンタープライズ用途での導入障壁を大幅に下げる。

全モデルが生成画像にC2PAコンテンツクレデンシャルとSynthIDウォーターマークを自動付与する点も、AI生成物の透明性が問われる現在の文脈では無視できない仕様だ。生成物の出自をメタデータレベルで証明できる仕組みは、メディア制作や広告業界での採用を後押しする要因になり得る。

Sources

Nano Banana (X)
Google Cloud: The ultimate Nano Banana prompting guide

この記事はいかがでしたか？

↑ トップへ戻る