Googleは6月30日、画像生成モデル「Nano Banana 2 Lite」と動画生成・編集モデル「Gemini Omni Flash」を、Google AI Studio、Gemini API、Gemini Enterprise Agent Platformで開発者向けに提供すると発表した。生成AIのメディア制作を実験機能からAPIで回せる制作工程へ近づける動きだ。画像を高速かつ低価格に作り、同じ流れで動画化や会話型編集へ渡せるようにすることで、アプリ内の試作、広告素材、商品動画、ゲーム内アセットなどを短い反復で作る設計が取りやすくなる。
Nano Banana 2 Liteは、Gemini API上ではgemini-3.1-flash-lite-imageとして提供される。Googleは同モデルをNano Banana系列で最速かつ最も低価格なGemini Imageモデルと位置づけ、1K解像度の画像生成を1枚あたり0.034ドル、テキストから画像への出力を4秒と説明している。対象は高スループット、低遅延、運用コストを優先する開発者向けのパイプラインである。初代Nano Bananaにあたるgemini-2.5-flash-imageの利用者には、Liteへの移行を推奨している。
Gemini Omni Flashは、Gemini API上ではgemini-omni-flash-previewとして公開プレビューに入った。テキスト、画像、動画を入力として受け取り、動画生成と自然言語による会話型編集を行うモデルで、動画出力1秒あたり0.10ドルと示されている。この価格は同社のVeo 3.1 Fastと同じ水準だ。動画モデルをGemini APIの中へ置くことで、静止画生成と動画編集を別々の製品操作として扱わず、同じアプリ体験の中でつなげやすくなる。
4秒・0.034ドルの画像生成が変える用途

Nano Banana 2 Liteの意味は、最高品質の画像を一枚作ることより、短い待ち時間で多くの候補を出せる点にある。テキストから画像を4秒で生成し、1K画像を0.034ドルで出せる単価は、デザイナーが数案を比べる用途、ECの商品背景を量産する用途、ゲームや教育アプリでユーザー操作に応じて画像を出す用途に合う。1回の生成で完成品を狙うのではなく、候補を出し直す回数が多いワークフローほど、遅延と単価の下げ幅が利用体験に直結する。

Googleは、速度を優先するLiteでもプロンプト追従、キャラクターの一貫性、画像内テキストの読みやすさを保つとしている。Gemini APIの説明では、Nano Banana 2 Liteは複数の参照画像入力や多段階の連続編集に最適化されたモデルではない。大量生成や即時反応を重視する場面ではLiteを選び、複数参照や精密な編集を伴う場面では上位モデルを選ぶ、という使い分けが前提になる。
この位置づけは、GoogleがNano Bananaを単一モデル名ではなくモデル群として整理し直したことにも表れている。Nano Banana 2 Liteは速度と規模、Nano Banana 2は汎用的な品質と速度のバランス、Nano Banana Proは複雑なプロ用途と高い制御性を担う。初代Nano Bananaはレガシーモデルとして残り、Googleは既存利用者にLiteへの移行を促す。開発者は画質、応答速度、単価、参照画像の扱いを用途ごとに選ぶ段階に入った。

Omni Flashは動画生成を会話型編集へ寄せる
Gemini Omni FlashでGoogleが前面に押し出しているのは、動画を一度出力して終わる機能ではなく、自然言語で修正を重ねる編集体験だ。モデルはテキスト、画像、動画を組み合わせた入力を受け、参照素材や指示を使って場面の見た目や動きを指定しながら動画を生成・編集できる。Googleは、画像やテキスト、動画を参照として使うことで、場面の見た目や動きを制御しやすくなると説明している。
動画出力の価格は1秒あたり0.10ドルで、10秒の生成なら出力部分だけで1ドルになる計算だ。高品質な動画生成が無制限に安くなったわけではなく、短尺動画をAPI内で試し、必要な修正を会話で重ねるための価格帯が示されたと見るべきだ。広告の短いバリエーション、商品紹介、教育アプリ内の説明クリップ、静止画からのモーション化など、10秒前後で成立する素材制作にまず使いやすい。
公開プレビュー段階の制約もはっきりしている。現在のOmni Flashは10秒の動画生成に限られ、より長い動画は今後の対応とされている。Gemini APIでは音声参照のアップロードとシーン拡張に未対応で、動画参照はAPIスキーマ上3秒まで受け付けるものの、モデル側では正しく処理されないと説明されている。シーン変更やパンを伴う場面では、キャラクターの一貫性にも課題が残る。商用の長尺編集や厳密なブランド表現に使うには、生成結果の確認と再編集の工程を組み込む必要がある。
画像生成と動画生成を一本の導線にする
Googleが示したデモアプリは、Nano Banana 2 Liteで静止画を生成し、その画像をGemini Omni Flashに渡して動画にする流れを強調している。旅行風の自撮り変換、室内デザインの再構成、商品画像からEC向け動画を作る例が紹介されており、いずれも画像生成と動画化を別工程に切り離さない。ユーザーが写真や短い指示を入力し、画像案を選び、同じ体験の中で動画へ進む構造だ。
この導線で意味を持つのがInteractions APIである。Gemini APIのドキュメントは、最新モデルへのアクセスにInteractions APIを推奨しており、Googleの発表ではセッション履歴と文脈を保持して最大3回の連続編集を積み重ねられるとされている。生成メディアのアプリでは、1回目の出力よりも、ユーザーが「もう少し明るく」「この商品を中央に」「背景を室内に」といった修正を重ねられるかが体験を左右する。履歴を持つAPI設計は、その反復をアプリ側で扱いやすくする。
開発者側の設計も変わる。画像生成をLiteで安く速く回し、採用する候補だけをOmni Flashへ渡せば、動画生成のコストを抑えながら完成候補を増やせる。逆に、最初から動画を何度も生成すると、1秒0.10ドルの出力コストが積み上がる。低価格な画像生成を前段に置く設計は、制作費を抑えつつ、ユーザーが試せる回数を増やす。
透明性はAPI利用時の運用条件になる
GoogleはNano Banana 2 LiteとGemini OmniにSynthIDの透かしを使うとしている。生成AIコンテンツは、Geminiアプリ、Chrome内のGemini、検索を通じて確認できると説明しており、同社はAIで作成・編集されたコンテンツを判別するツールの拡大も進めている。画像や動画をAPIで大量生成できるようになるほど、出力物の由来をどう示すかは製品設計の一部になる。
企業向けの利用では、透かしが入ることと、生成結果の正確性を別の問題として扱う必要がある。Google DeepMindのNano Banana 2 Liteページも、画像内の細かな顔、綴り、微細なディテール、データを伴う図表、翻訳やローカライズには確認が必要だと説明している。APIが速くなっても、最終的に公開される広告、商品画像、説明動画では、人が事実やブランド表現を確認する工程が残る。
今回の発表は、Googleが生成メディアをGemini APIの継続的な制作基盤へ寄せていることを示している。Nano Banana 2 Liteは画像生成の待ち時間と単価を下げ、Gemini Omni Flashは短尺動画の生成と編集を会話型の流れに組み込む。ただしOmni Flashは公開プレビューであり、10秒制限や参照動画の未処理など、実運用で避けて通れない制約も残る。次に見るべき点は、Liteが高頻度の画像生成をどこまでアプリ内の標準機能に押し上げるか、そしてOmni Flashが長尺化、音声参照、シーン拡張をどの順で実装するかである。