ByteDance傘下の火山引擎は、6月10日のFORCE原動力大会で、豆包大模型2.1 Pro、動画生成モデルSeedance 2.5、Seedance 2.0の4K対応、画像生成モデルSeedream 5.0 Pro、音声生成モデルSeed-Audio 1.0を発表した。発表の軸は個別モデルの性能競争にとどまらない。火山引擎はAgentKit、ArkClaw企業版、HiAgent 3.0、AI Trustを前面に出し、モデルを企業の業務フローへ組み込む運用層まで示した。

この発表で動いた前提は、ByteDanceのAI事業が「アプリに載るモデル」から「企業が大量に呼び出すAIクラウド基盤」へ寄ってきたことだ。火山引擎によると、豆包大模型の日次平均トークン呼び出し量は2026年6月時点で180兆を超え、過去1年で10倍以上に増えた。同社はさらに、中国のパブリッククラウドMaaS市場で49.5%のシェアを持ち、火山引擎上で年累計1兆トークン以上を使う企業が200社を超えたとしている。数字は同社の発表に基づくが、今回の製品群を読むには、この利用規模が前提になる。モデルの安さやベンチマークだけでは、180兆トークン/日の運用を支える説明として足りないからだ。

AD

Seed 2.1 ProはCoding、Agent、VLMを企業利用へ寄せた

豆包大模型2.1 Proは、Coding、Agent、VLMの3方向を強化したモデルとして発表された。火山引擎は、同モデルがAPIサービスとして開放済みで、火山方舟の体験センターに加え、豆包、TRAE、扣子にも接続されたと説明している。発表ではCodingとAgentで「生産級」の水準に達したという表現が使われ、単発の回答生成よりも、長時間の計画、ツール呼び出し、修正反復、成果物の納品までを意識した説明が目立った。

具体例として挙げられたのが、チップ設計RTLのテストである。豆包大模型2.1 Proは約18時間連続で動作し、6つの中核モジュールと1303行のRTLコードを作成し、9回の反復を経て、シミュレーション、テスト、合成チェックまで通したとされる。従来なら3から5人のエンジニアが数週間かける作業だったというのが火山引擎の説明だ。この主張は外部で独立検証された評価ではないため、実務上は再現条件を見る必要がある。それでも、ByteDanceがCodingモデルを短いコード補完ではなく、長時間の工程を回すAgentとして売り出そうとしていることは読み取れる。

価格面でも、火山引擎は低い利用単価を前に出した。Doubao-Seed-2.1-Proの料金は100万トークンあたり入力6元、出力30元、キャッシュ命中時1.2元とされ、Doubao-Seed-2.1-TurboはProの半額としている。大規模導入では、1回あたりの賢さよりも、ツール呼び出しや再試行を含めた総トークン量がコストを決める。火山引擎が価格とAgent運用を同じ発表で扱ったのは、企業にとっての判断軸が、モデル単体の順位から、長時間タスクをどれだけ安定して回せるかへ移っているためだ。

この流れは、2月に発表されたSeed2.0の延長線上にある。ByteDance Seedの公式ページでは、Seed2.0はPro、Lite、Miniの汎用Agentモデルとして整理され、長いタスク、複雑な指示、マルチモーダル理解への対応が強調されていた。Seed 2.1 Proは、その路線を火山引擎のMaaS利用実績と結び付け、企業導入の文脈で押し出した更新と見てよい。

Seedance 2.5は30秒生成と50素材入力で制作工程へ踏み込む

今回の技術的な伸びが最も分かりやすいのは、動画生成モデルSeedanceである。ByteDance Seedが公開しているSeedance 2.0のモデルカードでは、同モデルはテキスト、画像、音声、動画の4種類の入力に対応し、4から15秒の直接生成、480pと720pのネイティブ出力、最大3本の動画、9枚の画像、3本の音声を参照入力に使う構成だった。公式ページでも、Seedance 2.0は音声と動画の同時生成、動きの安定性、照明やカメラワークの制御を売りにしていた。

火山引擎の発表では、Seedance 2.0がネイティブ4K出力に対応し、10-bitの高ビット深度をネイティブに出力できるとされた。さらに7月初旬に提供予定のSeedance 2.5では、30秒の単一クリップ生成、50個の全モーダル素材の同時参照、より柔軟な動画編集が柱になる。15秒以下の短い生成から30秒のまとまった場面生成へ伸びると、用途はSNS向けの短い試作から、広告、短編ドラマ、絵コンテ、プリビズに近づく。素材参照数が増えることも同じ意味を持つ。登場人物、背景、商品、白モデル、材質、音の手がかりを一度に渡せるほど、生成結果は「その場で面白い映像」ではなく、制作チームの既存素材を引き継ぐ工程に入りやすくなる。

火山引擎は、50素材入力の例として、群像劇や宇宙船の白モデルを使ったプリビズを挙げている。約10万面の複雑な白モデルと材質参照から、衝突などの動的な場面でも構造、比率、運動関係を保つという説明だ。これは、動画生成モデルがクリエイティブツールとして使われる際の難所に触れている。生成品質そのものが高くても、既存の設計資産やキャラクター設定を壊すなら、制作現場では試作止まりになりやすい。Seedance 2.5が主張しているのは、見栄えの良い1カットではなく、参照素材を抱えた制作工程で扱える制御性である。

競争環境も同じ方向に進んでいる。Google DeepMindはVeo 3/3.1について、映像に加えて効果音、環境音、セリフをネイティブ生成できる点を強調している。動画生成は、無音の短いクリップから、音、編集、参照素材、権利処理を含む制作環境へ広がりつつある。Seedance 2.5の30秒生成と50素材入力は、この競争の中で、ByteDanceが「長さ」と「制御」を取りに行く更新だ。

AD

Seedream 5.0 ProとSeed-Audioは素材作りを一つの流れにする

画像生成では、豆包画像創作モデルSeedream 5.0 Proが発表された。火山引擎は、インタラクティブな精密編集、多層分離、高密度な情報表現、10以上の言語でのネイティブ文字生成を主な更新点としている。ByteDance Seedの公式ページでは、Seedream 5.0 Liteが検索機能と推論を備えた統合マルチモーダル画像生成モデルとして紹介されている。今回のPro版は、その方向を制作物の編集性へ寄せたものだ。

多層分離がここで意味を持つ。発表では、固定された分割ではなく、プロンプトや範囲指定によって、1行の文字、1文字、物体、版面全体まで任意の粒度で分け、ドラッグや拡大縮小などの二次編集を行えると説明された。生成画像の弱点は、最初の出力が良くても、その後に細部だけを直すのが難しいことにある。広告、EC、教材、図解では、文字、商品、背景、図表を別々に直せないと、結局は人間の編集工程に戻る。Seedream 5.0 Proの訴求点は、生成画像を完成品として出すことより、編集可能な素材として扱うことにある。

Seed-Audio 1.0も同じ文脈で見ると分かりやすい。火山引擎は、1つのプロンプトから、登場人物の会話、感情、方言やアクセント、背景音楽、フォーリー効果まで同期して生成できるとした。さらに、参考音声と文生音声を組み合わせ、オーディオブック、ポッドキャスト、長編音声コンテンツで音色の一貫性を保てると説明している。音声モデルを動画や画像の横に置いたのは、各モデルを別々に売るためだけではない。発表で示されたSeedreamの科学解説画像をSeedance 2.5で動画化する例のように、画像、動画、音声をつないで、制作工程全体を火山引擎の上に載せる狙いが見える。

Agent基盤の拡張はトークン消費の増加に対する答えでもある

モデルが企業の業務に入るほど、必要になるのは生成能力だけではない。火山引擎は今回、AIクラウドネイティブの全スタックとして、火山方舟CLI、AgentKit、AIクラウドインフラ、ArkClaw企業版、HiAgent 3.0、AI Trustをまとめて示した。方舟CLIは任意のAgentから火山方舟へ接続しやすくするための入口であり、AgentKitは認証、実行、評価、サンドボックス、記憶、知識に加え、PolicyとRegistryを追加する。PolicyはAgentの行動境界を定め、Registryは企業内のAgent、Skill、ツール能力を登録、発見、管理する。

これは、Agentを「便利なチャットボット」から、企業の権限、データ、監査、運用に接続するための部品である。Agentが契約審査、開発、セキュリティ運用、営業支援に入ると、どの権限で何を実行したか、どのデータへ触れたか、失敗時にどこまで戻れるかが問題になる。火山引擎がHiAgent 3.0で分散HarnessとLearning Loopを掲げ、Agentの実行履歴やフィードバックを能力更新に使うと説明したのも、継続運用を前提にした話だ。

AI Trustも同じ位置付けにある。発表では、AICC機密計算によるエンドツーエンドの暗号化と追跡可能な監査、Agentの安全管理、セキュリティ運用Agentが紹介された。China Mobileとの「移動引擎機密模型服務」専区について、火山引擎は、中央国有企業や高感度業界のデータを域外に出さない要件に合わせ、China Mobile Cloudの安全基盤と機密推論サービスを組み合わせたと説明している。180兆トークン/日の呼び出しを企業に広げるには、モデル性能より先に、利用者が社内データを渡せるか、監査に耐えられるか、権限を制御できるかが導入の壁になる。

AD

次の焦点は提供条件と第三者検証に移る

火山引擎の発表は、ByteDanceがAI生成とAgentの両方を、消費者向けアプリではなく企業向けクラウドの中核に置こうとしていることを示した。Seed 2.1 Proは長時間のCodingとAgent実行、Seedance 2.5は30秒生成と多数素材参照、Seedream 5.0 Proは編集可能な画像生成、Seed-Audio 1.0は音声制作を担う。これらをAgentKitやAI Trustと並べたことで、火山引擎はモデルを単体で競わせるより、企業が生成、実行、管理、監査までまとめて使う場を作ろうとしている。

公開後に確認すべき点は多い。Seedance 2.5は7月初旬提供とされており、実際のAPI仕様、料金、生成時間、商用利用条件、50素材入力時の安定性はまだ検証が必要である。Seedream 5.0 Proの多層分離や多言語文字生成も、広告や教材の現場で使える精度かどうかは、プロンプト例ではなく実運用で決まる。AgentKitやHiAgent 3.0についても、企業が既存のID管理、データ権限、監査基盤にどう接続できるかが採用判断を左右する。

今回の発表は、ByteDanceがモデルの性能表だけで勝負する段階を越え、トークン消費、生成ワークフロー、Agent運用、セキュリティを一つの商用基盤として束ねに来たことを示している。次に見るべきなのは、発表された数字の大きさよりも、Seedance 2.5以降のモデルが、制作と業務の現場でどこまで繰り返し使える形で提供されるかである。