毎分150億トークンの代償:AI業界を覆うコンピュート配給制の実態
エージェントAIの急速な普及が、AI業界の計算資源を食い尽くしつつある。OpenAIのAPIが処理するトークン量は2025年10月の毎分60億から、2026年3月末には毎分150億へと2.5倍に膨れ上がったとWall S […]
別名: Sora
OpenAIが発表した動画生成AIモデル。テキストによる指示(プロンプト)から、最長1分間の高品質で物理法則をある程度反映した動画を生成することができる。特定のユーザーの容姿を動画内に反映させる機能なども研究されており、映像制作業界に大きな衝撃を与えている。
Vision and language are the two foundational senses for humans, and they build up our cognitive ability and intelligence. While significant breakthroughs have been made in AI language ability, artificial visual intelligence, especially the ability to generate and simulate the world we see, is far lagging behind. To facilitate the development and accessibility of artificial visual intelligence, we created Open-Sora, an open-source video generation model designed to produce high-fidelity video content. Open-Sora supports a wide spectrum of visual generation tasks, including text-to-image generation, text-to-video generation, and image-to-video generation. The model leverages advanced deep learning architectures and training/inference techniques to enable flexible video synthesis, which could generate video content of up to 15 seconds, up to 720p resolution, and arbitrary aspect ratios. Specifically, we introduce Spatial-Temporal Diffusion Transformer (STDiT), an efficient diffusion framework for videos that decouples spatial and temporal attention. We also introduce a highly compressive 3D autoencoder to make representations compact and further accelerate training with an ad hoc training strategy. Through this initiative, we aim to foster innovation, creativity, and inclusivity within the community of AI content creation. By embracing the open-source principle, Open-Sora democratizes full access to all the training/inference/data preparation codes as well as model weights. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.
Sora is a text-to-video generative AI model, released by OpenAI in February 2024. The model is trained to generate videos of realistic or imaginative scenes from text instructions and show potential in simulating the physical world. Based on public technical reports and reverse engineering, this paper presents a comprehensive review of the model's background, related technologies, applications, remaining challenges, and future directions of text-to-video AI models. We first trace Sora's development and investigate the underlying technologies used to build this"world simulator". Then, we describe in detail the applications and potential impact of Sora in multiple industries ranging from film-making and education to marketing. We discuss the main challenges and limitations that need to be addressed to widely deploy Sora, such as ensuring safe and unbiased video generation. Lastly, we discuss the future development of Sora and video generation models in general, and how advancements in the field could enable new ways of human-AI interaction, boosting productivity and creativity of video generation.
We introduce Open-Sora Plan, an open-source project that aims to contribute a large generation model for generating desired high-resolution videos with long durations based on various user inputs. Our project comprises multiple components for the entire video generation process, including a Wavelet-Flow Variational Autoencoder, a Joint Image-Video Skiparse Denoiser, and various condition controllers. Moreover, many assistant strategies for efficient training and inference are designed, and a multi-dimensional data curation pipeline is proposed for obtaining desired high-quality data. Benefiting from efficient thoughts, our Open-Sora Plan achieves impressive video generation results in both qualitative and quantitative evaluations. We hope our careful design and practical experience can inspire the video generation research community. All our codes and model weights are publicly available at \url{https://github.com/PKU-YuanGroup/Open-Sora-Plan}.
Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.
General world models represent a crucial pathway toward achieving Artificial General Intelligence (AGI), serving as the cornerstone for various applications ranging from virtual environments to decision-making systems. Recently, the emergence of the Sora model has attained significant attention due to its remarkable simulation capabilities, which exhibits an incipient comprehension of physical laws. In this survey, we embark on a comprehensive exploration of the latest advancements in world models. Our analysis navigates through the forefront of generative methodologies in video generation, where world models stand as pivotal constructs facilitating the synthesis of highly realistic visual content. Additionally, we scrutinize the burgeoning field of autonomous-driving world models, meticulously delineating their indispensable role in reshaping transportation and urban mobility. Furthermore, we delve into the intricacies inherent in world models deployed within autonomous agents, shedding light on their profound significance in enabling intelligent interactions within dynamic environmental contexts. At last, we examine challenges and limitations of world models, and discuss their potential future directions. We hope this survey can serve as a foundational reference for the research community and inspire continued innovation. This survey will be regularly updated at: https://github.com/GigaAI-research/General-World-Models-Survey.
エージェントAIの急速な普及が、AI業界の計算資源を食い尽くしつつある。OpenAIのAPIが処理するトークン量は2025年10月の毎分60億から、2026年3月末には毎分150億へと2.5倍に膨れ上がったとWall S […]
2026年4月3日、OpenAIはテクノロジー業界の日刊ライブ番組「TBPN(Technology Business Programming Network)」を買収したと発表した。AIの覇権争いが激化する中で、同社がメ […]
人工知能(AI)の進化における新たな章が、静かに、しかし確実な足取りで幕を開けようとしている。 「AIのゴッドマザー」として知られるFei-Fei Li氏が設立したスタートアップ、World Labsが、新たな資金調達ラ […]
Google DeepMindが2026年1月22日(現地時間)に発表した「D4RT(Dynamic 4D Reconstruction and Tracking)」は、ロボティクス、そしてコンピュータビジョンの歴史にお […]
2026年1月21日、YouTubeのCEOであるNeal Mohan氏は、同社の今後の方針を示す年次書簡を公開した。その内容は、単なる機能追加の告知に留まらず、世界最大の動画プラットフォームが直面する「存亡をかけた構造 […]
人類は今後数年のうちに、その運命を左右しかねない重大な岐路に立たされることになる。 生成AI開発の最前線を走る米Anthropicの共同創業者であり、首席科学者を務めるJared Kaplan氏は、英紙The Guard […]
AI開発は既に決定的な変化を迎えているようだ。OpenAIの従業員がArs Technicaに明かしたところによれば、同社のAIコーディングツール「Codex」は、現在「その大部分がCodex自身によって構築されている」 […]
2025年12月12日、OpenAIは、Googleの猛追に対抗すべく、新たなフラッグシップモデル「GPT-5.2」シリーズ(Instant, Thinking, Pro)を正式にリリースした。 前モデルであるGPT-5 […]
エンターテインメントと生成AIの融合における最大の転換点 2025年12月11日(米国時間)、エンターテインメント業界の巨人であるThe Walt Disney Company(以下、Disney)と、生成AIのトップラ […]
AI音声合成技術開発のスタートアップElevenLabsが、ハリウッドの象徴的な俳優らと提携し、著名人のAIクローン音声を公式にライセンス供与する「Iconic Voice Marketplace」を発表した。故人を含む […]
OpenAIは2025年11月4日、同社が開発する動画生成AIモデルを搭載したアプリ「Sora」のAndroid版を、ついにGoogle Playストアで公開した。これはTikTokやInstagramが支配する既存のソ […]
Elon Musk氏が率いるAIスタートアップ、xAIが、人工知能研究の次なるフロンティア「世界モデル」の開発に本格的に参入した。これは単なるテキスト生成や画像認識の精度向上競争とは一線を画す、AIが物理世界そのものを理 […]
2025年10月1日、OpenAIは新世代の動画生成AIモデル「Sora 2」を正式に発表した。 初代モデルから物理法則のシミュレーション精度を飛躍的に向上させ、初めて高品質な音声生成機能を統合。同時に、ユーザーが自身を […]
TikTokを運営する中国の巨人ByteDanceが発表した、新たな基盤モデル「Seedance 1.0」が業界に大きな波紋を呼んでいる。公開された客観的なベンチマークで、OpenAIの「Sora」、Googleの「Ve […]
Googleは、プレミアムAIサービス「Gemini Advanced」加入者向けに最新の動画生成AI「Veo 2」の提供を開始した。ユーザーはテキストプロンプトのみで8秒間の高品質動画を生成でき、物理法則に基づくリアル […]
OpenAIはChatGPTの画像生成機能を大幅に刷新し、GPT-4oモデルに直接統合した新システムを発表した。テキストやロゴの正確な描画、会話を通じた画像の洗練、複雑な指示への対応など、従来のDALL-E 3を大きく上 […]
Adobeが、テキストや画像から動画を生成するAIツール「Firefly Video Model」のパブリックベータ版を公開した。しかし、現時点では品質や価格設定に課題が多く、本格的な商用利用には程遠い状況だ。 Adob […]
OpenAIの共同設立者であるJohn Schulman氏が、わずか5ヶ月で競合のAnthropicを去り、元OpenAI CTOのMira Murati氏が率いる新しいAIスタートアップに参加することが明らかになった。 […]
OpenAIのSam Altman CEOは、12月5日から20日まで12営業日連続で新機能やプロダクトを発表する「12 Days of OpenAI」の開催を発表した。毎日午前10時(太平洋時間)からのライブストリーム […]
GoogleがAI動画生成モデル「Veo」をクラウドプラットフォームVertex AIで提供開始したことを発表した。企業向けプライベートプレビューの形で、高品質な動画をテキストや画像から生成できる機能を提供する。大手クラ […]