Stable Diffusionの開発者たちが新たに立ち上げたAIスタートアップ、Black Forest Labsが画期的な画像生成AI「FLUX.1」をリリースした。この新モデルは、人間の手の描写など従来の課題を克服し、業界に大きな影響を与える可能性がある物となっている。既に3,100万ドル(45億円)の資金調達に成功し、オープンソースAIコミュニティに新たな活力をもたらすと期待されている。
FLUX.1:次世代の画像生成AIの登場
Black Forest Labsは、Stable Diffusionの開発者であるRobin Rombach氏、Patrick Esser氏、Andreas Blattmann氏らによって設立されたスタートアップだ。これまでステルスで活動中だったが、2024年8月1日に設立を発表し、新しいテキストから画像を生成するAIモデル群「FLUX.1」を発表した。
FLUX.1は3つのバリエーションで提供される。最高性能を誇る非公開ソースモデルのFLUX.1 [pro]はAPI経由で利用可能であり、商用利用を想定している。FLUX.1 [dev]は非商用利用向けのオープンウェイトモデルで、[pro]版から直接蒸留されており、同等の品質とプロンプト追従能力を持ちつつ、より効率的な設計となっている。FLUX.1 [schnell]は最も高速なバージョンで、Apache 2.0ライセンスの下で公開され、ローカル開発や個人利用に適している。
これらのモデルは120億のパラメータを持ち、マルチモーダルおよび並列拡散トランスフォーマーブロック(Parallel Diffusion Transformer Blocks)のハイブリッドアーキテクチャを採用しているとのことだ。この革新的なアプローチにより、視覚的品質、プロンプト追従性、出力の多様性において優れた性能を発揮している。
技術面では、FLUX.1は「フローマッチング」と呼ばれるDiffusionモデルを一般化する手法を採用している。さらに、回転位置埋め込みと並列アテンションレイヤーを組み込むことで、パフォーマンスとハードウェア効率を向上させている。これらの技術革新により、FLUX.1は従来のモデルを凌駕する性能を実現している。
FLUX.1の特筆すべき点は、人間の手の描写能力だ。初期のStable Diffusion 1.5などの画像生成モデルでは、手の描写が弱点とされていたが、FLUX.1はこの課題を克服し、様々なポーズの手を比較的正確に描写できるという。これは、トレーニングデータセットの改善や、モデルアーキテクチャの進化によるものと考えられる。
業界専門家らは、FLUX.1の出力品質がMidjourney v6.0やDALL-E 3に匹敵、あるいは凌駕する可能性があると評価している。AI業界の著名人Bindu Reddy氏は、Xへの投稿で「これはマルチモーダルAIにとって本当に素晴らしいニュースです!オープンソースAGIへの行進は続いています」とコメントしている。
Black Forest Labsの創設は、Stability AIの最近の混乱を受けて、オープンソースAIコミュニティに新たな希望をもたらすものと言えるだろう。Stability AIは2024年6月中旬にStable Diffusion 3 Mediumをリリースしたが、人体解剖学の生成に関して広範な批判を受けた。これに対し、FLUX.1は人体描写の課題を克服し、より高品質な画像生成を実現している。
同社は、画像生成に続き、次世代のテキストから動画を生成するAIシステムの開発も計画している。これにより、OpenAIのSoraやRunwayのGen-3 Alpha、KuaishouのKlingなどと競合することになる。Black Forest Labsは、「高解像度での正確な作成と編集を、前例のないスピードで実現する」と述べており、動画生成の分野でも革新をもたらすつもりだ。
一方で、FLUX.1の登場は責任あるAI開発とデプロイメントに関する重要な問題も提起している。Black Forest Labsは、虚偽情報の生成や非同意の画像作成、個人やグループに害を及ぼす可能性のあるコンテンツの生成を禁止するなど、厳格な使用ガイドラインを定めている。しかし、トレーニングデータの出所については明確な言及がなく、インターネット上の大規模な画像スクレイピングを行った可能性が指摘されている。これは、著作権問題や「フェアユース」の倫理的な問題を提起する可能性がある。
Black Forest Labsは、Andreessen Horowitz(a16z)が主導する3,100万ドル(約45億円)の資金調達に成功した。この資金調達には、Brendan Iribe、Michael Ovitz、Garry Tanなど、著名な投資家も参加している。また、同社はエンターテインメント業界の重鎮であり元ディズニー社長のMichael Ovitzや、AI研究者のMatthias Bethgeをアドバイザーとして迎えている。これらの強力なバックアップは、Black Forest Labsの技術的および商業的な成功の可能性を高めている。
FLUX.1 [dev]及び FLUX.1[schnell]は、GitHubからダウンロード可能だが、[dev]について、weightsファイルが、23GBもあるため、ローカルで実行するには、グラフィックボードによってはあらかじめ量子化することが必要かも知れない。
Sources
- Black Forest Labs: Announcing Black Forest Labs
- Andreessen Horowitz: Investing in Black Forest Labs
コメント