OpenAIは12月10日、テキストから高品質な動画を生成できるAIモデル「Sora Turbo」を一般公開した。このSora Turboは、2024年2月に初公開された技術「Sora」の改良版で、大幅に高速化された動画生成が可能だという。Sora Turboは、ChatGPT PlusおよびPro会員向けに専用サイト「sora.com」で提供される。米国をはじめとする多くの国で利用可能だが、EU諸国および英国では現時点で利用できない。
また、本稿執筆時点では新規アカウントの受付は停止されており、既存アカウントもサーバーのアクセス過多の影響でSoraにアクセスしにくい状況が続いている。
Soraの提供内容とプラン別機能
OpenAIは、Sora Turboの提供にあたって、利用者のニーズに応じた二段階の料金体系を採用している。基本となるChatGPT Plus会員向けプラン(月額20ドル)では、月間50件までの動画生成が可能だ。この基本プランでは480p解像度での生成が標準となるが、より高品質な720p解像度での生成も可能である。ただしその場合、生成可能な動画の数は減少する。また、Plus会員の生成可能な動画の長さは5秒に制限されている。
より本格的な利用を想定したPro会員向けプラン(月額200ドル)では、機能が大幅に拡張される。無制限の低速生成に加えて、月間500件の高速生成が可能となる。また、最大1080pの高解像度オプションが解放され、動画の長さも最大20秒まで延長できる。特筆すべき機能として、Pro会員のみが人物を含む写真のアニメーション化機能を利用できる。この制限は、ディープフェイク対策の一環として設けられている。
OpenAIは2025年初頭に向けて、さらに細分化された料金プランの導入を予定している。これは、クリエイターやエンタープライズユーザーなど、多様な利用者層のニーズに対応するためだ。現行の二段階プランは、あくまでも初期展開フェーズとして位置付けられている。
なお、生成された動画の品質については、解像度に関係なく、OpenAIが2月に公開した初期バージョンと比較して大幅な処理速度の向上が実現されている。特に480p動画の生成は20秒未満で完了する一方、複雑な1080p動画の生成には数分程度の処理時間を要する。この処理時間の差は、高解像度での詳細な画質制御に起因するものと考えられる。
Soraの新機能と技術的特徴
OpenAIが今回公開したSora Turboは、単純な動画生成エンジンというよりも、包括的なクリエイティブプラットフォームとしての性格を強く打ち出たものであり、その中核となるのが、新たに開発された直感的なユーザーインターフェースだ。このインターフェースは、生成された動画をグリッド表示またはリスト表示で閲覧できる柔軟な表示システムを採用している
特に注目すべきは、「Storyboard(ストーリーボード)」と呼ばれる新機能だ。これは、タイムライン上で複数のクリップを連結し、シーンごとに詳細な指示を与えることができる高度な制作ツールとなっている。システムは各クリップ間のシームレスな遷移を自動的に生成し、ユーザーはドラッグ操作によってカットの強さを調整したり、テイクの長さを変更したりすることができるのだ。
動画編集機能も大幅に強化されている。「Re-cut」機能では、生成された動画の個別シーンを細かくトリミングしたり、必要に応じて延長したりすることが可能だ。「Blend」機能を使えば、複数の動画を一つのシーケンスへとシームレスに融合させることができる。また「Loop」機能は、既存のコンテンツから違和感のないエンドレスループを自動生成する。
スタイリング機能も充実しており、例えば「Cardboard & Papercraft」プリセットを適用すると、シーン全体が段ボールや紙で作られたような独特の質感に変換される。「Film Noir」プリセットは、1940年代のフィルムノワール映画を思わせる陰影の強いモノクロ調の映像効果を実現する。これらのスタイルプリセットは、技術的な知識がなくても高度な映像表現を可能にする。
技術的な基盤となる動画生成エンジンも進化を遂げており、OpenAIの技術文書によれば、Soraは動画を「視覚パッチ」と呼ばれる単位で処理することが明かされている。これは言語モデルにおけるテキストトークンに相当する概念で、動画を低次元の潜在空間に圧縮した後、時空間パッチに分解することで効率的な表現を実現している。
さらに、DALL-E 3で採用された「リキャプショニング技術」も実装されている。この技術により、視覚トレーニングデータに対して詳細な説明文が自動生成され、ユーザーのテキスト指示をより忠実に動画表現に反映することが可能になっている。これは、人間の意図とAIの出力のギャップを埋める重要な技術革新といえる。
安全性への取り組み
OpenAIはSora Turboの公開にあたり、AI生成動画がもたらす潜在的なリスクに対して、多層的な安全対策を実装している。その中核となるのが、C2PAメタデータの埋め込みシステムだ。Content Authenticity Initiative(CAI)が推進するこの技術標準により、生成された全ての動画にOpenAIの電子署名が組み込まれ、その起源を追跡可能にしている。これは、AI生成コンテンツの透明性を確保する上で重要な第一歩となっている。
デジタルウォーターマークの実装も特筆すべき取り組みの一つである。すべての生成動画にデフォルトで可視のウォーターマークが付与され、一目でSoraによる生成コンテンツであることが識別できる。この機能は、誤情報の拡散やディープフェイクの悪用を防ぐための実用的な対策として機能している。
人物を含むコンテンツの生成に関しては、特に慎重なアプローチを採用している。現時点では、人物を含む写真からの動画生成機能はPro会員にのみ限定されている。これは、ディープフェイク対策の一環として設けられた制限だ。OpenAIは、この機能の一般開放に向けて、より洗練されたディープフェイク検出・防止システムの開発を進めている。
特に厳格な制限が設けられているのが、児童性的虐待コンテンツ(CSAM)や性的なディープフェイクの生成に関する部分だ。OpenAIは、こうしたコンテンツの生成を完全にブロックする技術的な仕組みを実装している。これは単なる方針としてではなく、システムレベルでの防止機能として組み込まれている。
さらに、OpenAIは生成コンテンツの事後検証を可能にする独自の内部検索ツールを開発した。このツールは生成物の技術的な特徴を分析することで、特定のコンテンツがSoraによって生成されたものかどうかを判別できる。これにより、疑わしいコンテンツが発見された場合の迅速な対応が可能となっている。
このような包括的な安全対策の背景には、AIの発展に伴う社会的影響への深い考慮がある。OpenAIは技術の早期公開により、社会全体がAI生成動画の可能性を探求し、適切な規範やセーフガードを共同で開発する時間的余裕を確保することを意図している。これは、技術革新と社会的責任のバランスを取ろうとする重要な試みといえる。
Xenospectrum’s Take
今回のSora Turboのリリースは、AI動画生成の新たな標準を示すものだが、同時に興味深い課題も浮き彫りになっている。物理法則の不自然さや長時間のアクションシーケンスでの整合性など、現行モデルの限界も明確だ。
特筆すべきは、OpenAIがEU市場への展開を見送った判断だろう。Sam Altman氏が示唆するAI規制への慎重な姿勢は、今後のAI開発における規制と革新のバランスという本質的な課題を提起している。
また、Runway、Google、Klingなど競合他社の台頭により、OpenAIの技術的優位性は以前ほど明確ではない。しかし、ChatGPTのエコシステムを活用した展開は、AI動画生成の民主化という観点で重要な一歩となるだろう。
Sources
- OpenAI:
コメント