Appleが、AI分野における同社の技術的停滞への批判に対する反論だろうか。この度、静かに公開された技術論文で、同社の研究チームは「STARFlow」と名付けられた新たな高解像度画像生成AIモデルを発表した。このモデルは、DALL-E 3やMidjourneyといった現代の画像生成AIの主流である「拡散モデル(Diffusion Models)」に匹敵する、あるいは一部の指標では凌駕するほどの性能を叩き出しながら、その根幹となる技術は全く異なるアプローチを採用している。
拡散モデル一強時代への挑戦状、Apple「STARFlow」の衝撃
現在の画像生成AI市場は、OpenAIのDALL-E、Stability AIのStable Diffusion、そしてMidjourneyに代表される「拡散モデル(Diffusion Models)」が席巻している。これらのモデルは、ノイズだらけの画像から徐々にノイズを取り除いていく(デノイジング)というプロセスを経て、驚くほどリアルで高品質な画像を生成する。
しかし、この反復的なデノイズ処理は、膨大な計算コストを必要とし、推論(画像生成)に時間がかかるという課題も抱えている。
ここに、Appleは全く異なるアプローチで切り込んできた。STARFlowの基盤となっているのは「正規化フロー(Normalizing Flows, NFs)」と呼ばれる技術だ。これは、AI業界では拡散モデルほど注目されてこなかったが、独自の利点を持つ技術体系である。Appleの研究チームは、この正規化フローをTransformerアーキテクチャと組み合わせ、大規模な画像生成タスクに耐えうるよう劇的に進化させることに成功した。
論文の著者には、Appleの機械学習研究者であるJiatao Gu氏やShuangfei Zhai氏に加え、正規化フローの分野で著名なLaurent Dinh氏(元Google Brain/DeepMind)といったトップクラスの研究者が名を連ねており、Appleの本気度が伺える。彼らは論文で「我々の知る限り、これはこの規模と解像度で正規化フローの成功を実証した最初の事例である」と述べ、その成果に強い自信を示している。
なぜAppleは「正規化フロー」を選んだのか?
では、拡散モデルとは根本的に何が違うのか。Appleがこの「正規化フロー」という道を選んだ理由を探るには、その技術的な特性を理解する必要がある。
拡散モデルとの根本的な違い:「計算可能」という強み
拡散モデルが「ノイズの海から手探りで宝物を引き上げる職人」だとすれば、正規化フローは「精密な設計図に基づいて寸分の狂いなく製品を組み立てる機械」に例えることができる。
- 拡散モデル: 何十、何百というステップを経て、徐々に画像を鮮明にしていく。各ステップの変換は複雑で、全体のプロセスを数学的に厳密に追跡するのは難しい。
- 正規化フロー: 入力(単純なノイズ)から出力(生成画像)への変換が、数学的に「可逆(元に戻せる)」な関数で定義される。これにより、ある画像が生成される「尤度(ゆうど、もっともらしさ)」を直接的かつ正確に計算できる。
この「尤度が正確に計算できる」という特性は、極めて重要だ。モデルの挙動が予測しやすく、学習プロセスが安定する。また、生成された結果に対する「不確実性」を定量的に評価しやすくなるため、より信頼性の高いAIシステムの構築に繋がる可能性がある。これは、特にオンデバイスでの安定した動作や、厳密性が求められるアプリケーションにおいて大きな利点となるだろう。
連続空間での直接学習:量子化の呪縛からの解放
もう一つの重要な違いは、データの扱い方にある。多くのAIモデル、特にテキストを扱う大規模言語モデル(LLM)から発展した自己回帰モデルは、「量子化」というプロセスを経る。これは、画像のような連続的な情報を、離散的な「トークン」の集合に変換する処理だ。便利ではあるが、この過程で元のアナログ情報が持つ滑らかさや微細なディテールが失われる「情報損失」のリスクが常に存在する。
対して、STARFlowが採用する正規化フローは、連続的なデータの空間で直接学習を行う。これにより、量子化による情報損失を原理的に回避し、データの持つ情報を余すところなく捉えることが可能になる。これは、生成される画像の忠実度(フィデリティ)を向上させる上で、本質的な優位性を持つ。
STARFlowに見られる4つの技術革新
Appleは、正規化フローの潜在能力を最大限に引き出すため、いくつかの独創的な技術革新を導入した。これらこそが、STARFlowを単なる実験的なモデルから、拡散モデルと肩を並べる存在へと昇華させた原動力である。
① 理論的裏付け:「普遍性」の証明という揺るぎない土台
「やってみたら、うまくいった」では、大規模な投資はできない。Appleの研究チームはまず、STARFlowの基礎となる「Transformer Autoregressive Flow (TARFlow)」が、理論上、あらゆる連続的なデータ分布をモデル化できる能力(普遍性)を持つことを数学的に証明した。これは、STARFlowが偶然の産物ではなく、堅牢な理論的基盤の上に成り立っていることを示しており、今後のさらなるスケーリングに向けた揺るぎない土台となる。
② Deep-shallowアーキテクチャ:深さと浅さの絶妙な協演
STARFlowの心臓部には、「Deep-shallow(深浅)アーキテクチャ」と呼ばれる独創的な設計が採用されている。これは、役割の異なる2種類のTransformerブロックを組み合わせたものだ。
- Deepブロック: 層が深く、巨大なパラメータを持つ。モデルの能力の大部分を担い、画像の全体的な構造や意味といった、複雑で抽象的な特徴を捉える「司令塔」の役割を果たす。
- Shallowブロック: 層が浅く、計算コストが低い。Deepブロックの後段に複数配置され、画像の細部を効率的に調整・洗練させる「専門職人チーム」のように機能する。
この分業体制により、モデル全体の高い表現力を維持しつつ、計算効率を大幅に向上させることに成功した。特に推論時には、重いDeepブロックの処理は一度で済むため、全体の生成速度の向上に大きく貢献する。
③ 潜在空間での学習:賢い役割分担
STARFlowは、ピクセルデータを直接扱うのではなく、Stable Diffusionでも用いられている「潜在空間(Latent Space)」で学習を行う。これは、事前学習済みのオートエンコーダ(画像を圧縮・復元するモデル)を使い、高解像度の画像を小さなデータ(潜在表現)に圧縮し、その圧縮された空間でSTARFlowを学習させる手法だ。
これにより、オートエンコーダが画像の「見た目」という面倒な部分を一手に引き受け、STARFlow本体は圧縮された「意味」の空間で、より本質的な構造の学習に集中できる。論文では、正規化フローはこの潜在空間と「自然に整合する(align naturally)」と述べられており、この賢い役割分担が、高効率かつ高品質な生成を可能にした。
④ 新しいガイダンス(CFG)アルゴリズム:魔法の杖の再発明
「分類器なしガイダンス(Classifier-Free Guidance, CFG)」は、入力されたプロンプト(テキスト指示)に、より忠実な画像を生成させるための「魔法の杖」として広く知られている。しかし、この魔法を単純に正規化フローに適用すると、ガイダンスを強くするほど生成画像が破綻しやすくなるという問題があった。
Appleの研究チームは、この問題を解決するために、CFGの原点であるスコア関数に立ち返り、正規化フローに最適化された新しいガイダンスの数式を導出した。これにより、ガイダンスを強くかけても画像が破綻しにくくなり、安定して高品質な画像を生成できるようになった。これは、既存技術をただ流用するのではなく、原理から見直して自分たちのモデルに最適化するという、Appleらしい徹底したアプローチの賜物だ。
驚異のパフォーマンス:ベンチマークが示すSTARFlowの実力

STARFlowは、理論やアーキテクチャが優れているだけでなく、実際の性能評価(ベンチマーク)でも驚くべき結果を残している。画像の品質評価で広く用いられるFID(Fréchet Inception Distance)スコア(低いほど良い)を見てみよう。
- ImageNet 256×256 (クラス条件生成): STARFlowのFIDスコアは2.40。これは、トップクラスの拡散モデルであるDiT-XL/2 (2.27)に肉薄し、同じ正規化フローベースの先行研究TARFlow (5.56)から劇的な改善を遂げている。
- ImageNet 512×512 (クラス条件生成): 解像度が上がっても性能は落ちず、FIDスコアは3.00。これはDiT-XL/2 (3.04)と互角の性能であり、高解像度へのスケーラビリティを証明している。
- MS-COCO (テキスト条件生成): テキストから画像を生成するタスクでは、3.8B(38億)パラメータを持つ大規模モデルがFID9.1を記録。これはGigaGAN (9.1)と同等であり、Imagen (7.3)やParti-20B (7.2)といった巨大モデルの背中が見える位置につけている。
これらの数値は、STARFlowがもはや実験室レベルの技術ではなく、現在の最先端モデルと堂々と渡り合える実力を持っていることを雄弁に物語っている。
STARFlowが切り拓く未来:AppleのAI戦略と私たちの生活
この技術的ブレークスルーは、Appleの今後の製品やサービスにどのような影響を与えるのだろうか。
まず考えられるのは、オンデバイスAIへの布石としての可能性だ。正規化フローが持つ数学的な明確さや、Deep-shallowアーキテクチャによる計算効率は、リソースが限られ、安定性が厳しく求められるiPhoneやMac上でのAI機能に非常に適している。クラウドに頼らずとも、デバイス上で高度な画像生成や編集が可能になる未来が近づいているのかもしれない。
また、論文では画像修復(Inpainting)や指示ベースの画像編集(Instruction based image editing)への応用も示されている。正規化フローの「可逆性」は、画像を一度意味のある情報(潜在表現)に変換し、編集後に再び高品質な画像へ戻すというインタラクティブなタスクと相性が良い。これは、単に画像を生成するだけでなく、プロのクリエイターが使うような高度な編集ツールとしての可能性も秘めている。
もちろん、論文では事前学習済みオートエンコーダへの依存や、さらなる推論速度の最適化といった課題も挙げられている。STARFlowがすぐにApple製品に搭載されるわけではないだろう。
しかし、今回の発表が示したのは、AppleがAI競争において他社の後追いをするのではなく、より困難で、しかし長期的には大きな利点をもたらす可能性のある独自の技術路線を粘り強く追求しているという事実だ。STARFlowのように、Appleが着実ながらも独自のAI開発戦略を続けているという事実は、そこに派手さはないが、実に興味深い事例と言えるだろう。
論文
- arXiv: STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
参考文献