Midjourneyはおよそ1年ぶりとなるAI画像生成モデルのメジャーアップデート「V7」のアルファ版をリリースした。この新バージョンは、画質の大幅な向上、手や物体描写の一貫性改善、そしてアイデア創出を加速する新機能「ドラフトモード」などを搭載し、画像生成体験の進化を予感させる。
V7の核心:画質、一貫性、そしてパーソナライゼーション
Midjourney V7は、単なるバージョンアップではなく、Midjourneyによれば、内部アーキテクチャから刷新された全く新しいモデルとのことだ。開発を率いるDavid Holz氏によると、V7は以下のような顕著な改善を実現している。
- 飛躍的な画質向上: 「美しいテクスチャ」と表現されるように、生成される画像の質感が向上し、よりリアルで魅力的な表現が可能になった。
- 一貫性の改善: 従来モデルで課題とされがちだった手や身体、物体の描写において、細部の一貫性が大幅に向上した。これにより、より自然で破綻の少ない画像を生成できるようになった。
- プロンプト理解力の強化: テキストプロンプト(画像生成の指示文)に対する理解度が向上し、ユーザーの意図をより正確に反映した画像を生成できるようになった。また、画像プロンプト(参考画像を用いた生成)の品質も向上している。
- デフォルトで有効化されたパーソナライゼーション: V7は、Midjourneyとして初めて「パーソナライゼーション」機能がデフォルトで有効になっているモデルである。これは、AIがユーザーの美的感覚やスタイルを学習し、生成結果に反映させる機能だ。利用するには、事前に最低200組の画像ペアを評価し、自身の好みをシステムに学習させる必要がある(所要時間は約5分)。このプロセスを経ることで、ユーザーはより自分好みの画像を効率的に得られるようになる。パーソナライゼーションは、設定でいつでもオン/オフの切り替えが可能だ。
Holz氏はDiscordでのアナウンスで「V7は素晴らしいモデルだ。テキストプロンプトへの理解が格段に向上し、画像プロンプトは見事に機能し、画質は美しいテクスチャで著しく向上し、身体、手、あらゆる種類の物体は細部の一貫性が大幅に改善された」と述べている。
新機能「ドラフトモード」:高速かつ低コストなアイデア探求

V7の目玉機能の一つが「ドラフトモード(Draft Mode)」である。これは、アイデアの試行錯誤やブレインストーミングを高速かつ低コストで行うために設計されたモードだ。
- 速度とコスト: ドラフトモードは、通常の画像生成(V6標準モード)と比較して、10倍の速度で画像をレンダリングし、コストは半額で済む。
- 利用シーン: アイデアを素早く形にしたい場合や、多様なバリエーションを試したい場合に最適だ。Webインターフェースでは、ドラフトモード使用時にプロンプトバーが「会話モード」に変化し、「猫をフクロウに変えて」「夜にして」といった指示を出すだけで、AIがプロンプトを自動で修正し、新しい画像を生成し始める。マイクボタンを使えば「音声モード」となり、思いついたアイデアを話すだけで次々と画像が生成される、「まるで液体の夢のように画像が流れ出す」体験が可能だとHolz氏は説明する。
- 明示的な利用: プロンプトの末尾に –draft というフラグを追加することでも、ドラフトモードを明示的に利用できる。これは、 –repeat(繰り返し生成)やプロンプトの順列(Permutations)機能と組み合わせると特に効果的だ。
- 品質と強化: ドラフトモードで生成される画像は、標準モードよりも品質は低い。しかし、その挙動や美的傾向は標準モードと一貫しているため、アイデアを練る上での忠実なプレビューとして機能する。気に入ったドラフト画像が見つかれば、「enhance(強化)」または「vary(バリエーション作成)」ボタンをクリックすることで、フル品質で再レンダリングできる。
Holz氏は「ドラフトモードは、アイデアを反復するための史上最高の方法だと考えている」と、その有効性に自信を見せている。
利用モードと制限事項、今後の展望
V7アルファ版は現在、「Turbo」と「Relax」の2つの速度モードで提供されている。
- Turboモード: 高速生成が可能だが、コストはV6標準モードの2倍となる。
- Relaxモード: 低速だが、サブスクリプションのFast GPU時間を消費しないモード(プランによる)。
- Standardモード: 通常速度のモードは、最適化のため現在準備中であり、近日中に提供される予定だ。
現時点でのV7にはいくつかの機能制限がある。画像のアップスケーリング、編集、再テクスチャリングといった機能は、一時的に従来のV6モデルが使用される。これらの機能のV7対応は将来的に予定されている。一方で、ムードボード(複数の画像を組み合わせた参照)やSREF(Style Reference Codes:特定のスタイルを参照する機能)はV7で利用可能であり、今後のアップデートでパフォーマンスが向上する見込みだ。
Midjourneyは今後60日間、1~2週間ごとに新機能を追加していく計画を発表している。その中でも最大の目玉として予告されているのが、「新しいV7キャラクターおよびオブジェクト参照機能」である。詳細についてはまだ不明だが、特定のキャラクターやオブジェクトの一貫性を保ったまま生成する機能の向上が期待される。
Holz氏は「これはユニークな強みとおそらくいくつかの弱点を持つ、全く新しいモデルだ。我々は何が得意で何が苦手なのかを皆さんから学びたいが、異なるスタイルのプロンプトが必要になるかもしれないことを念頭に置いてほしい。だから少し試してみてほしい」と、ユーザーからのフィードバックを求めている。
Midjourneyの歩みと競争環境
Midjourneyは、Leap Motion(手の動きを認識するデバイスを開発)の共同創業者であるDavid Holz氏によって2022年に設立された。当初はコミュニケーションプラットフォーム「Discord」上で完全に動作するユニークな形態をとっていたが、現在は公式Webサイトも提供されている(利用にはサブスクリプションが必要)。
特筆すべきは、Midjourneyが外部からの資金調達を一切行わずに成長してきた点だ。2023年後半には年間収益約2億ドルを見込んでいたとも報じられている。最近では、サンフランシスコを拠点とする同社がハードウェアチームを設立し、詳細不明のプロジェクトに取り組んでいることや、以前から発表されていたビデオ生成モデルや3Dオブジェクト生成モデルの開発を継続していることも伝えられている。
今回のV7リリースは、OpenAIがChatGPT内で新たな画像生成ツールを発表し、特にテキストレンダリング能力の高さで話題となったわずか1週間後に行われた。これは、AI画像生成分野における競争の激しさを物語っている。Midjourney V7は特定のスタイル(例えばジブリ風など)に特化したものではないが、その高い画質と表現力で独自の地位を築こうとしている。
一方で、Midjourneyは他の多くのAI開発企業と同様に、著作権に関する課題にも直面している。ウェブ上から収集した画像をAIモデルのトレーニングに使用したことが、画像制作者の権利を侵害するとして、複数の訴訟を起こされている状況だ。
Midjourney V7は、画質の向上、一貫性の改善、そしてドラフトモードやパーソナライゼーションといった新機能により、AI画像生成の可能性をさらに押し広げるものとなるだろう。アルファ版として公開されたばかりであり、今後の機能追加や改善、そしてコミュニティからのフィードバックによって、その真価が明らかになっていくことが期待される。
Sources
- Midjourney: V7 Alpha