Black Forest Labsは、同社の画像生成AIモデル「FLUX.1」を拡張し、4つの新しい専門AIツール群「FLUX.1 Tools」をリリースした。この新ツール群は、画像の編集や変換において高度な制御を可能にし、有償APIとオープンソース版の両方で提供される。
4つの専門化されたAIツールが画像編集を大きく変える
新たにリリースされたFlux.1 Toolsは以下の4つの機能からなる。
- FLUX.1 Fill:テキスト説明と2値マスクが与えられた実画像と生成画像の編集と拡張を可能にする、最先端の塗りつぶしと塗りつぶしモデル。
- FLUX.1 Depth:入力画像とテキストプロンプトから抽出された深度マップに基づく構造ガイダンスを可能にするために学習されたモデル。
- FLUX.1 Canny: 入力画像とテキストプロンプトから抽出されたキャニーエッジに基づいて構造ガイダンスを可能にするように学習されたモデル。
- FLUX.1 Redux:入力画像とテキストプロンプトを混ぜて再作成できるアダプタ。
FLUX.1 Toolsの中核を成す「FLUX.1 Fill」は、インペインティングとアウトペインティングの機能を提供する。インペインティングでは、既存画像の特定部分をテキストプロンプトに基づいて自然に編集できる。さらにアウトペインティング機能により、元の画像の境界を超えて画像を拡張することも可能となった。同社が公開したベンチマークによれば、Ideogram 2.0やAlimamaCreativeのFLUX-Controlnet-Inpaintingなどの既存ソリューションを性能面で上回っているという。
構造保持に特化した「FLUX.1 Depth」と「FLUX.1 Canny」は、画像変換時の精密な制御を実現する革新的なアプローチを採用している。FLUX.1 Depthは画像から抽出した深度情報を活用し、FLUX.1 Cannyはエッジ検出技術を用いて画像の基本構造を維持する。特に画像の再テクスチャリングにおいて、両ツールはMidjourneyの同様の機能と比較して、より多様なバリエーションと一貫した結果を提供する。ベンチマークでは、特にFLUX.1 Depth [pro]版が出力の多様性で優位性を示し、開発者向けのDev版は深度を考慮したタスクでより安定した結果を達成している。
画像のバリエーション生成に特化した「FLUX.1 Redux」は、FLUX.1ベースモデルのための適応層として機能する。入力画像に対して微細な変更から大幅なスタイル変更まで、画像の本質的な要素を保持しながら柔軟な変換を可能にする。最新のFLUX1.1 [pro] Ultraモデルと組み合わせることで、4メガピクセルの高品質出力と柔軟なアスペクト比での画像生成を実現している。ベンチマークテストでは、画像バリエーション生成においても最先端の性能を示している。
これら4つのツールは独立して機能するだけでなく、相互に組み合わせることで複雑な画像編集ワークフローを構築することも可能だ。特に、テキストプロンプトと画像入力を組み合わせた高度な画像編集シナリオにおいて、その真価を発揮する設計となっている。各ツールはプロフェッショナル向けの[pro]バージョンと開発者向けの[dev]バージョンで提供され、用途に応じて適切な選択が可能となっている。
開発者とエンドユーザーの双方に対応するデュアルライセンス戦略
Black Forest Labsは、これらのツールを有償APIとして提供すると同時に、開発者やリサーチャー向けに推論コードをGitHub上で、モデルのウェイトをHugging Face上でオープンソースとして公開している。さらに、fal.ai、Replicate、Together.ai、Freepik、krea.aiといったパートナープラットフォームを通じても利用可能だ。
Sources
- Black Forest Labs: Introducing FLUX.1 Tools
コメント