Stability AIは、テキストから画像を生成するAIモデル「Stable Diffusion」の最新バージョンとなる「Stable Diffusion 3.5」を発表した。今回のリリースでは、異なる用途に特化した3つのモデルバリエーションが用意され、研究者からホビイスト、スタートアップ企業まで、幅広いユーザーのニーズに対応する。
待望の大型アップデート、3つのモデルで幅広いユースケースをカバー
6月にリリースされた前バージョン「Stable Diffusion 3 Medium」は、同社の基準やコミュニティの期待を十分に満たすことができなかった。この経験を活かし、Stability AIは今回のバージョンでは単なる修正に留まらず、視覚メディアの変革という使命を前進させる本格的な改良を実施している。
3つのモデルバリエーションの特徴と性能
今回リリースされる3つのモデルは、それぞれ異なる特徴と用途を持つ:
- Stable Diffusion 3.5 Large
- 8Bパラメータを備えた最上位モデル
- 1メガピクセルの高解像度画像生成に対応
- プロフェッショナルユースに最適化
- 市場最高レベルのプロンプト忠実度を実現
- マーケティングキャンペーンやデジタルアセット制作での活用を想定
- Stable Diffusion 3.5 Large Turbo
- Largeモデルの高度な知識を保持しつつ、処理速度を最適化
- わずか4ステップでの画像生成を実現
- 高速なワークフローが求められる実務での使用に最適
- 非蒸留モデルと遜色ない品質を維持
- リアルタイムでの画像生成や大量のバリエーション作成に威力を発揮
- Stable Diffusion 3.5 Medium(10月29日リリース予定)
- 2.5Bパラメータの軽量モデル
- 改良されたMMDiT-Xアーキテクチャによる効率的な処理
- 0.25〜2メガピクセル範囲の画像生成に対応
- 一般的なコンシューマーハードウェアでの実行に最適化
Stable Diffusion 3.5技術的革新と改良点
今回のアップデートでは、複数の技術的革新が導入されている。特筆すべき改良点として、トランスフォーマーブロックへのQuery-Key Normalization(QKN)の統合がある。この技術により、モデルのトレーニングプロセスが安定化し、エンドユーザーによるファインチューニングや開発が容易になった。
Stability AIのCTOであるHanno Basse氏は、「QK-normalizationは以前から実験していましたが、今回が初めての正式採用となります。カスタマイズを優先したこの新モデルには、この技術が適していると判断しました」と説明している。
また、同一プロンプトでも異なるシード値を使用することで、より多様な出力が得られるように設計されている。これは意図的な仕様であり、ベースモデルにおける幅広い知識ベースと多様なスタイルの保持を可能にしている。
Basse氏は、「トレーニング中、各画像に対して複数バージョンのプロンプトでキャプション付けを行い、より短いプロンプトを優先しています。これにより、特定のテキスト記述に対してより幅広く多様な画像概念の分布を確保しています」と、説明する。
さらに、MMDiT-Xアーキテクチャの進化により、画像品質と解像度生成能力が向上。マルチモーダル処理能力の強化により、より自然な画像表現が可能になった。この改良により、効率的なリソース使用と高品質な出力の両立を実現している。
多様性と倫理性への深い配慮
新バージョンでは、技術的な進化に加えて、多様性への配慮も強化されている。異なる肌の色や特徴を持つ人物の自然な生成が可能となり、過度なプロンプティングなしでも多様な表現を実現できる。これは単なる政治的配慮ではなく、AIの実用性を高めるための本質的な進化として評価できる。
また、3Dアート、写真、絵画、線画など、幅広いスタイルへの対応も強化された。一貫性のある視覚表現を維持しながら、クリエイターの意図を正確に反映できる柔軟なスタイル転送能力を獲得している。
ライセンスと利用条件
Stability AI Community Licenseは、オープンな利用と商業利用のバランスを考慮して設計されている。非商用利用は完全無料で、研究目的での使用も制限がない。商用利用については、年間収益100万ドル未満の企業は無料で利用可能だ。これにより、スタートアップや小規模ビジネスの成長を支援し、クリエイターの収益化を促進する狙いがある。年間収益100万ドル以上の組織向けには、カスタマイズされた企業向けライセンスが用意されている。
今後の展開
10月29日のStable Diffusion 3.5 Medium一般公開後、ControlNetsの実装も予定されている。これにより、プロフェッショナルユースにおける高度な画像制御が可能になる。モデルはHugging Faceでのウェイト公開に加え、Stability AI API、Replicate、Fireworks、ComfyUIなど、多様なプラットフォームでの利用が可能となる。
Xenospectrum’s Take
今回のStable Diffusion 3.5のリリースは、Stability AIの画像生成AI市場における地位を再確立する重要な一手と言える。特に注目すべきは、モデルの多様性とカスタマイズ性の向上である。8Bパラメータを持つLargeモデルから、高速処理に特化したTurboモデル、そして一般ユーザー向けのMediumモデルまで、様々なニーズに対応できる製品ラインナップを揃えた点は高く評価できる。
また、Query-Key Normalizationの採用は、将来的なモデルの発展性を考慮した賢明な選択である。これにより、開発者コミュニティによる独自の改良や拡張が容易になり、エコシステムの更なる発展が期待できる。
ただし、プロンプトの具体性が出力品質に与える影響が大きくなっている点には注意が必要である。これは、モデルの柔軟性と引き換えに生じたトレードオフとも言えるが、プロフェッショナルユースにおいては、より詳細なプロンプトエンジニアリングのスキルが求められることになるだろう。
Sources
- Stability AI: Introducing Stable Diffusion 3.5
コメント