テクノロジーと科学の最新の話題を毎日配信中!!

ChatGPTの新たな画像生成機能が驚異的性能で話題沸騰、無料ユーザーへの提供は延期へ

Y Kobayashi

2025年3月27日

OpenAIが3月26日に発表したChatGPTの新しい画像生成機能が、驚異的な性能と精度で注目を集めている。GPT-4oモデルに直接統合されたこの新機能は、DALL-E 3を上回る画像生成能力を持ち、特にテキスト描写の正確さで大きな進化を見せている。また、予想を超える人気により、無料ユーザーへの提供は当初の計画から遅延することになった。

スポンサーリンク

ChatGPTに統合された「最も先進的な」画像生成機能

YouTube video

OpenAIが「これまでで最も高度な画像生成機能」と称するこの新モデルは、自然言語の指示から「正確で写真のようなリアルな」画像を生成することが可能である。ChatGPTとの会話の流れの中で直接利用できるこの機能は、ユーザーが提供した画像を参考にしたり、生成された結果を後から修正したりすることもできる。

最大の特徴は、他の競合モデル(DALL-E 3を含む)が苦手としていたテキストの正確な描写能力だ。OpenAIが示した例では、特定のテキストをホワイトボードに書く従業員の写真リアルな画像を生成し、さらに写真を撮る人物の反射まで表現できている。また、漫画や実在の著名人の描写も可能で、試験では例えばDonald Trump大統領がローザンヌにいる様子などの画像も生成できた。さらに、ユーザーが提供した画像を基にインスピレーションを得たり、生成された画像を後から修正したりする対話的な編集能力も備えている。OpenAIは、単に美しいだけでなく、「実用的で、正確かつ強力な」画像生成を目指していると述べている。

DALL-E 3を凌駕する驚異の描画性能

この新しい画像生成機能の真価は、従来のDALL-E 3と比較することでより鮮明になる。テクノロジーメディア「MUO」は、様々なプロンプトを用いて両モデルの性能を詳細に比較検証している。

1. 手と指の描写

AI画像生成の弱点とされてきた手の描写において、GPT-4oは顕著な改善を見せた。「ギターでEマイナーコードを押さえる指のクローズアップ」というプロンプトに対し、DALL-E 3は指の形状こそまずまずだったものの、コードのポジションが不正確で、弦が7本以上描かれるなど、不自然さが目立った。一方、GPT-4oは、6本の弦が均等に配置され、コードのポジションも正確な、極めて写実的な画像を生成した。

2. 人物の描写(歴史上・架空)

「カジュアルなシャツとサスペンダー姿でセントラルパークのアイスクリームを食べるアインシュタイン」という指示では、DALL-E 3は本人とは似ているものの、どこかカートゥーン的な質感の人物像しか生成できなかった。対照的にGPT-4oは、白黒写真と見紛うほどのリアルなアインシュタイン像を描き出した。

同様に、「現代のスーパーマーケットで買い物カートを押しながら缶詰を見て顔をしかめる、ゲラルト(ウィッチャー)に似たキャラクター」というプロンプトでも、GPT-4oは俳優Henry Cavillを彷彿とさせるリアルなゲラルト像を生成し、その表現力の高さを示した。ただし、有名人や著作権のあるキャラクターの描写に関しては、モデル側で制限がかかる場合や、プロンプトの工夫(例:「似ている(similar to)」を「彷彿とさせる(resembling)」に変更)が必要になることもあるようだ 。

3. テキストのレンダリング

従来の画像生成AIにとって最大の難関であったテキスト描写能力において、GPT-4oは飛躍的な進歩を遂げた。「古びた紙の上に筆記体で書かれた手書きの手紙」に特定のテキスト(Warcraft IIIのテレナス王のスピーチ)を含めるよう指示したところ、DALL-E 3は判読不能な文字の羅列しか生成できなかった。しかし、GPT-4oは指定されたテキストを一字一句正確に、流麗な筆記体で描き出したのだ。これは、画像内に意味のある文字情報を正確に埋め込めるようになったことを意味し、デザインや情報伝達における応用範囲を大きく広げる可能性を秘めている。OpenAIによると、この改善はテキストレンダリングに最適化された「自己回帰的アプローチ(autoregressive approach)」、すなわち画像を左から右へ、上から下へと段階的に構築する手法によるものだという。

4. その他の要素(カートゥーン、鏡、車など)

カートゥーン調のイラスト生成においても、GPT-4oはよりシャープで意図的な描線を示し、背景透過の指示にも正確に対応した。一方で、「鏡の反射」のような空間的な論理性を要する描写は、依然としてAIにとって課題であるようだ。GPT-4oはDALL-E 3よりは改善を見せたものの、反射の角度や存在しないはずの物体が映り込むなど、不自然さが残るケースも見られた。車の描写では、車種のディテールや時代考証まで正確に再現するなど、目覚ましい写実性を発揮している。

スポンサーリンク

提供状況と社会現象、そして課題

この高性能な画像生成機能は、まずChatGPTの有料プラン(Plus, Pro, Team)の加入者向けに提供が開始された。当初は無料ユーザーへの展開も予定されていたが、予想をはるかに上回る人気のため、無料版への提供は当面延期されることがOpenAIのCEOであるSam Altman氏によって発表された。Altman氏はX(旧Twitter)への投稿で「ChatGPTの画像(生成機能)は我々の予想をはるかに超えて人気がある(そして我々の期待はかなり高かった)」と述べている。この需要の高さは、過去のOpenAI製品ローンチ時にも見られた計算能力不足の問題を示唆している可能性もある 。

提供開始直後から、ソーシャルメディアではこの新機能を使って生成された画像が溢れた。特に、写真をスタジオジブリ作品風のタッチに変換する試みが大きな流行となり、多数の作例が共有された。

https://twitter.com/heyBarsee/status/1904891940522647662

このトレンドにはAltman CEO自身も言及し、自身がジブリ風に加工された画像が送られてくることについて、やや自虐的なコメントをXに投稿し、プロフィール画像をジブリ風に加工している。

しかし、この高性能化と普及は、新たな懸念も生んでいる。スタジオジブリの共同設立者である宮崎駿監督は、過去にAIによるアニメーション表現に対して「生命そのものへの侮辱だと強く感じる」「心底うんざりしている」と極めて否定的な見解を示していた。また、ハリウッドの俳優やクリエイターからは、OpenAIのようなAI企業が著作物の保護を弱め、AIのトレーニングデータとして自由に利用しようとしている動きに対する強い懸念の声が上がっている (Variety.md)。Make Use Ofのレビューでも、簡単なプロンプトの変更で著作権による制限を回避できた事例が報告されており、悪用に対する脆弱性も指摘されている。

OpenAI自身も、「現在の多くの限界を認識しており、初期リリース後にモデルを改善することで解決に努める」として、完璧ではないことを認めている。GPT-4oによる画像生成は、AIの創造的可能性を大きく押し広げた一方で、著作権、倫理、そして表現の本質に関わる複雑な問題を改めて浮き彫りにしていると言えるだろう。今後の技術的な改善とともに、社会的なルール形成や合意形成の動きがますます重要になってくる。


Source

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする