Microsoftは2026年3月20日、テキストから画像を生成するAIモデル「MAI-Image-2」を発表した。AI画像生成モデルの評価プラットフォーム「Arena.ai」のリーダーボードにおいて、ラボ別ランキングで3位に到達した。前作「MAI-Image-1」が2025年10月のデビュー時に9位だったことを考えると、5ヶ月で6つ順位を上げた計算になる。ただし1位のGoogleと2位のOpenAIとの差は依然として大きく、本格的な肉薄とはまだ言いがたい状況だ。

このモデルはMicrosoftのAI超知能チームが送り出した最初のプロダクトであり、Mustafa Suleyman氏(Microsoft AI CEO、DeepMind共同創業者)がX(旧Twitter)で発表した。CopilotおよびBing Image Creatorへの展開が順次進む予定で、法人向けAPIも選定顧客から提供開始している。

AD

9位から3位へ。MAI-Image-2が刻んだ5ヶ月の距離

MAI-Image-1は2025年10月に公開され、Arena.aiのリーダーボードで9位に付けた。当時Microsoftは「反復的で過度に様式化された出力を防ぐよう訓練した」と説明したが、上位モデルとの差は歴然としていた。1位・2位を占めるOpenAIとGoogleとの間には、ベンチマーク上の大きな溝があった。

今回のMAI-Image-2では順位を一気に6つ引き上げた。現在のリーダーボードはGoogleの「gemini-3.1-flash-image-preview」とOpenAIの「gpt-image-1.5-high-fidelity」がMicrosoftの上位に立つ構図だ。だが3位という数字が表す以上に越えるべき壁は厚い。

とは言え、5ヶ月での6ランクアップは開発の速度という観点では評価に値する。MAI-Image-1は非常に控えめなスタートで、業界からの注目もほとんど集めなかった。MAI-Image-2はその状況を変え、少なくともトップ3ラボの一角として名を連ねる位置に到達した。開発チームはこれを「チームは今回のリリースに向けて猛烈に取り組んだ」と表現している。

フォトリアリズム・テキスト・シーン:クリエイター向け3つの強化軸

MAI-Image-2の改善は、フォトリアリズムの向上、画像内テキストの生成精度、シネマティックなシーン生成の3軸に集中している。いずれもMicrosoftがフォトグラファー、デザイナー、ビジュアルストーリーテラーと共同で洗い出した課題領域だ。

フォトリアリズムでは、自然な光の再現、正確な肌の色調、生活感のある環境描写が改善された。「ポスト制作に費やす時間を減らし、制作そのものに集中できる」というのがMicrosoftの訴求だが、これは従来の課題である、AIが生成した人物の肌色が不自然だったり、照明が現実離れして見えたりする問題への直接的な回答だ。

画像内テキストの生成精度は、AI画像生成における長年の弱点だった。単純な単語でさえ文字が歪んだり、スペルが崩れたりする事例は珍しくなかった。MAI-Image-2はポスターのタイポグラフィからインフォグラフィック、スライド、図解まで、テキストを含む画像を安定して出力できると主張する。テキスト生成の精度が上がれば、グラフィックデザインや広告制作の現場でAI画像ツールを本格採用する障壁が下がる。

シネマティックで超高精細なシーン生成については、シュールなコンセプトや複雑な構図、壮大な世界観の描写に対応できるとMicrosoftは主張する。商業広告やゲーム、映像制作の領域ではリアリズムだけでなくこうした「絵的な密度」が求められる。Microsoftはクリエイター市場を競争の主戦場と定めており、この3軸の設計がその判断の現れだ。

AD

超知能チームの最初の製品と、OpenAI依存脱却の文脈

MAI-Image-2はMicrosoftのAI超知能チームが送り出した最初のプロダクトだ。このチームはMustafa Suleymanが率い、OpenAIとは独立してMicrosoft自身がフロンティアモデルを開発するために設置された組織だ。Suleyman自身は2024年にDeepMindを離れMicrosoftに加わっており、この超知能チームは彼の主導で立ち上げられた。

Microsoftはここ数年、AIモデルの実質的な供給源をOpenAIに依存してきた。ChatGPTやGPTシリーズをCopilotやAzure経由で提供する体制は短期的には合理的な選択だったが、「MicrosoftはOpenAIの再販業者にすぎない」という批判を招いてきた。Windows Centralは今回の発表に際し、「Microsoftは評判を回復するために多くの作業が必要だ」と明示的に指摘している。AI slop(質の低いAI生成コンテンツ)と評されるリスクも、Microsoftが払拭しようとしている課題の一部だ。

MAI-Image-1の立ち上げはその反転の試みとして始まった。9位という控えめなスタートから、MAI-Image-2で上位圏への足がかりを得た。とはいえ、自社モデルでOpenAIやGoogleに対して技術的な優位を主張できる状況には、まだ至っていない。技術的詳細や学習データ、価格設定をMicrosoftが一切開示しないまま製品を出すことは、まだ見せられるものが限られているという判断の現れだ。

GB200クラスターが動き出した先にあるもの

Microsoftは発表の中で、次世代GB200クラスターが稼働開始したことに触れた。NVIDIAの最新GPU基盤を用いたこのクラスターは、モデル訓練に使えるコンピュート規模の拡大を意味する。MAI-Image-1からMAI-Image-2への跳躍を下支えしたのが、この計算資源の増強だとすれば、次世代モデルへのヒントにもなる。

配布面では、MAI Playground(一部地域で即日利用可能)に加え、CopilotとBing Image Creatorへの展開が順次進む。法人向けAPIは、広告大手WPPなど一部の選定顧客向けに本日から提供開始し、今後はMicrosoft Foundry経由で全開発者に開放する予定だ。WPPはすでに大規模な画像生成ニーズを持つ企業として、Microsoftとの提携関係を公表している。

3位という順位はGoogleとOpenAIの牙城を崩したことを意味しない。ただし、超知能チームの最初の製品として明確な数値的前進を示し、GB200クラスターの稼働とMicrosoft Foundryの開放が重なる時期に差し掛かったことで、MAI-Image-3がどこに到達するかが当面の焦点となる。Microsoftがフロンティアモデルの開発を自力で加速できるかどうか、その答えは次のリリースサイクルで出るだろう。


Sources