OpenAI、ChatGPTの人気画像生成モデル「gpt-image-1」をAPI経由で開発者に解放

OpenAIは、ChatGPTで人気を博している最新の画像生成モデル「gpt-image-1」を、API経由で開発者向けに提供開始した。これにより、企業や開発者は高品質かつプロフェッショナル水準の画像生成機能を、自社のツールやプラットフォームへ直接統合することが可能になる。

ChatGPTで話題沸騰の画像生成AI、APIで外部展開へ

OpenAIがChatGPTに新たな画像生成機能を導入したのは最近のことだが、瞬く間に最も人気のある機能の一つとなった。特に、特定のスタイル（例えばスタジオジブリ風）の画像を生成する能力がSNSで話題を呼び、提供開始からわずか1週間で1億3000万人以上のユーザーが7億枚以上の画像を生成したとOpenAIは報告している。この爆発的な人気は、OpenAIのリソース（特にGPU）に大きな負荷をかけるほどであったとも言及されている。

今回APIとして提供される「gpt-image-1」は、ChatGPTの画像生成機能と同じ基盤技術を採用した、ネイティブなマルチモーダルモデルである。このモデルの主な特徴は以下の通りだ。

多様なスタイル: 様々な視覚的スタイルでの画像生成に対応。
忠実な指示追従: カスタムガイドラインに忠実に従う能力。
豊富な世界知識: 広範な知識を活用した画像生成。
正確なテキストレンダリング: 画像内にテキストを正確に描画する能力。

これらの能力により、クリエイティブツール、Eコマース、教育、エンタープライズソフトウェア、ゲームなど、多岐にわたる分野での実用的な応用が期待される。

開発者はこのAPIを通じて、一度に複数の画像を生成したり、品質（とそれに伴う生成速度）を制御したりすることが可能だ。アクセスはまずImages API経由で提供され、Responses APIへの対応も近日中に予定されている。

開発者向け機能と制御オプション

gpt-image-1 APIを利用する開発者は、生成プロセスを細かく制御できる。

モデレーション感度: moderation パラメータで制御可能。「auto」（デフォルト）は標準的なフィルタリング、「low」はより制限の少ないフィルタリングを適用する。「low」設定では、潜在的に年齢不適切なコンテンツのフィルタリングが緩和される。
品質: 生成される画像の品質レベルを選択可能。
数量: 一度に生成する画像の数を指定できる。
背景: 画像の背景を透明にするか不透明にするかを選択できる。
出力形式: JPEG、PNG、WebPなどの出力形式を指定できる。

詳細な価格設定とトークン体系

gpt-image-1 APIの利用料金はトークン単位で計算され、テキストと画像で異なる価格設定がされている。

テキスト入力トークン（プロンプト）: 100万トークンあたり 5ドル
画像入力トークン（入力画像）: 100万トークンあたり 10ドル
画像出力トークン（生成画像）: 100万トークンあたり 40ドル

これを実際の画像生成コストに換算すると、OpenAIによれば、正方形の画像（1024×1024）の場合、おおよそ以下のようになる。

低品質: 約 0.02ドル/枚 (272トークン)
中品質: 約 0.07ドル/枚 (1056トークン)
高品質: 約 0.19ドル/枚 (4160トークン)

品質とサイズに応じた詳細なトークン数情報は以下の通りだ：

品質	正方形 (1024×1024)	ポートレート (1024×1536)	ランドスケープ (1536×1024)
Low	272 トークン	408 トークン	400 トークン
Medium	1056 トークン	1584 トークン	1568 トークン
High	4160 トークン	6240 トークン	6208 トークン

画像入力はURLまたはBase64エンコードデータで提供可能で、PNG, JPEG, WEBP, 非アニメーションGIF形式（最大20MB）に対応する。

競合と比較すると、Stability AIはクレジットベース（Stable Image Ultraで8クレジット/生成、1クレジット=0.01ドル）、GoogleのImagenはGemini API経由で0.03ドル/画像となっている。

安全性とプライバシーへの配慮

gpt-image-1 APIは、ChatGPTにおける画像生成と同じ安全ガードレールを採用している。

有害コンテンツの制限: ポリシーに反する有害な画像の生成を制限するセーフガード。
C2PAメタデータ: 生成された画像には、AI生成コンテンツであることを識別し、来歴を追跡するためのC2PA (Coalition for Content Provenance and Authenticity) メタデータが埋め込まれる。OpenAIはこの組織の運営委員会メンバーでもある。
調整可能なモデレーション: 前述の通り、開発者は moderation パラメータでフィルタリング強度を調整できる。
データプライバシー: OpenAIは、API経由で送受信される顧客データ（入力・出力画像を含む）をモデルのトレーニングに使用しないことを明言しており、すべての利用はOpenAIのAPI利用規約に従う必要がある。

また、OpenAIによれば、同モデルには小さなテキスト、非ラテンフォント、回転画像、複雑な図表などの処理に制限があり、医療画像、CAPTCHA、高い空間精度が必要なタスクには適していないとされる。また、物体のカウントや位置の特定などの解釈は一般的に近似値となる点には注意が必要だ。

主要企業による早期導入と活用事例

今回の発表に伴い、すでに多くの企業が gpt-image-1 APIを自社製品やサービスに導入、または導入を検討していることも明らかにされた。

Adobe: FireflyおよびExpressアプリにOpenAIの画像生成機能を統合し、クリエイターに多様な美的スタイルの実験機会を提供する。
Figma: デザインプラットフォーム全体で高度な画像生成・編集機能を提供。Figma Design内でプロンプトから画像を生成・編集（スタイル調整、オブジェクト追加・削除、背景拡張など）可能に。
Airtable: 大規模なワークフローにおけるクリエイティブ制作を支援。キャンペーンコンセプト生成からアセットのリミックス、ローカライズまでを効率化。
Wix: AI搭載デザインプラットフォーム「Wixel」に統合。簡単な指示でプロ級のデザインを作成、編集可能に。
Photoroom: Eコマース向けに、商品写真からスタジオ品質のビジュアル、ライフスタイルシーン、モデル着用画像を生成する新AIツール（Product Beautifier, Product Staging, Virtual Model）を提供。
Gamma: プレゼンテーションやウェブサイト用のイラスト生成（図や視覚化、既存画像の編集・スタイル変更）に活用。
HeyGen: アバター作成機能の強化、特にプラットフォーム内でのアバター編集機能向上に活用。
OpusClip Thumbnail: YouTubeクリエイター向けに、動画内容とタイトルに合わせたクリックされやすいサムネイルをAIで生成。
Quora: デフォルトの画像モデルとして採用し、プラットフォーム上のユーザーとクリエイター向け画像生成の品質基準を向上。

さらに、以下の企業も活用を模索している。

Canva: Canva AIおよびMagic Studioツールで、デザイン生成・編集の可能性を広げるために統合を検討中。
GoDaddy: 顧客が編集可能なロゴ作成、背景除去、プロ品質タイポグラフィ生成などを容易にするため、統合を実験中。GoDaddy Airo®の新機能として、ブランドアイデンティティを反映したSNS投稿やマーケティングアセット作成も視野に。
HubSpot: マーケティングおよびセールス資料作成支援のために活用を検討中。専門知識なしで高品質な画像をSNS、メール、ランディングページ用に作成可能に。
Instacart: レシピや買い物リスト用の画像生成など、新たな活用法をテスト中。
invideo: AIによる動画制作プラットフォームで、テキスト生成の改善、詳細な編集制御、高度なスタイルガイダンスのために統合。

利用開始に向けて

gpt-image-1 モデルは、現在グローバルにImages API経由で利用可能だ。利用開始にあたり、一部の開発者は組織の認証が必要になる場合があるため、組織設定を確認することが推奨される。

開発者はOpenAI Playgroundでモデルの機能を試したり、公式の画像生成ガイドを参照したりできる。このAPIの公開により、ChatGPTで実証された強力な画像生成能力が、より広範なアプリケーションやサービスへと展開され、新たなクリエイティブ表現やビジネスソリューションが生まれることが期待される。

Source

OpenAI: Introducing our latest image generation model in the API