中国のテクノロジー大手Baidu(百度)は、2025年11月13日に開催した年次イベント「Baidu World 2025」で、次世代基盤モデル「ERNIE 5.0」を発表した。テキスト、画像、音声、動画を根本から統合的に扱う「ネイティブ・オムニモーダル」を謳い、一部ベンチマークでOpenAIのGPT-5やGoogleのGemini 2.5 Proを凌駕すると主張。AIエージェントや独自半導体の新計画も同時に明かし、世界市場への野心を鮮明にした。

AD

AI戦略の転換点、「逆ピラミッド」構造へのシフト

イベントの基調講演で、Baiduの共同創業者兼CEOであるロビン・リー(李彦宏)氏は、AI業界の価値構造が健全な「逆ピラミッド」へと移行しつつあるというビジョンを提示した。

「AIを内面化すれば、それはネイティブな能力となり、インテリジェンスをコストから生産性の源泉へと変える」とリー氏は説明した。「我々はAIをあらゆる業務と統合し、企業と個人の成長の原動力とすることに集中すべきだ」

かつては、基盤となる半導体チップが価値の大半を占め、その上のモデル、アプリケーションと層が上がるにつれて経済的リターンが減少する「正ピラミッド」構造が主流だった。しかしリー氏は、これからの時代はアプリケーションが基盤モデルの100倍の価値を生み出す「逆ピラミッド」が健全な姿だと強調する。 この発言は、Baiduが単なるモデル開発競争から一歩踏み出し、AIを実社会の隅々に実装するアプリケーション・エコシステムの構築へと戦略の軸足を移していることを強く印象付けた。

真の「オムニモーダル」へ、ERNIE 5.0の技術的革新

今回の発表の最大の目玉は、間違いなく次世代ファウンデーションモデル「ERNIE 5.0」だ。Baiduはこのモデルを、単なるマルチモーダル(複数モーダル対応)ではなく、「ネイティブ・オムニモーダル(全モーダル対応)」モデルと位置付けている。

従来の多くのマルチモーダルAIが、テキスト、画像、音声といった各モダリティを個別のエンコーダーで処理し、後からそれらを統合する「後期融合(late fusion)」に近いアプローチを取っていた。これに対し、ERNIE 5.0は設計段階からテキスト、画像、音声、動画を共同でモデリングするアーキテクチャを採用しているとされる。 これにより、異なるモーダル間のより深く、文脈に沿った理解と生成が可能になるというのがBaiduの主張だ。

パラメータ数は2.4兆に達すると報じられており、その能力は命令追従、創造的な文章作成、事実に基づいた推論、エージェントとしての計画立案、ツールの使用など、広範な領域で飛躍的に向上しているという。

ベンチマークが示す実力:GPT-5、Gemini 2.5 Proとの比較

Baiduはイベントで、ERNIE 5.0が主要なベンチマークにおいて、OpenAIの「GPT-5-High」やGoogleの「Gemini 2.5 Pro」といった西側の最先端モデルに匹敵、あるいはそれを上回る性能を示したと発表した。

特に強みが際立つのは、企業向けアプリケーションで重要となる構造化された文書の理解視覚的なチャートの推論の分野だ。Baiduが公開したスライドによると、ERNIE 5.0は以下のベンチマークで競合を上回るスコアを記録したとされる。

  • OCRBench: 光学文字認識の精度を測るベンチマーク
  • DocVQA: 文書画像に関する質疑応答能力を測るベンチマーク
  • ChartQA: チャート(グラフ)に関する質疑応答能力を測るベンチマーク

これらの分野での優位性は、自動文書処理や財務分析といった具体的なビジネスシーンでの実用性を直接的に示唆するものだ。

画像生成においても、Baiduの内部評価によればGoogleの「Veo3」と同等以上の性能(意味的な整合性、画質)を達成。 音声認識や音声からの質疑応答タスクでも競争力のある結果を示しており、全方位的な能力向上をアピールしている。

もちろん、これらのベンチマーク結果はBaidu自身の発表であり、第三者による独立した検証が待たれるところだ。しかし、同社が特定の領域で明確なリードを主張している点は、AIモデル開発の競争軸が、汎用的な言語能力だけでなく、より専門的で実用的なタスク処理能力へと多様化していることを示している。

プロプライエタリとオープンソースの二刀流戦略

ERNIE 5.0は、Baidu AI CloudのMaaSプラットフォーム「Qianfan」を通じてAPI提供されるプロプライエタリ(商用)モデルである。 その一方で、BaiduはERNIE 5.0発表のわずか数日前に、Apache 2.0ライセンスで利用可能なオープンソースのマルチモーダルモデル「ERNIE-4.5-VL-28B-A3B-Thinking」を公開している。

このオープンソースモデルは、推論効率を高めるMoE(Mixture-of-Experts)アーキテクチャを採用し、280億パラメータのうち実際にアクティブになるのは30億パラメータのみという特徴を持つ。 これにより、単一の80GB GPUで動作可能となり、中規模の組織でも導入しやすい設計となっている。

この動きは、Baiduが市場を二つの異なるアプローチで攻略しようとしていることを示唆している。最先端の性能を求める大企業や特定のユースケースにはプレミアムなERNIE 5.0を、そしてより広範な開発者コミュニティやコスト効率を重視する企業にはアクセスしやすくカスタマイズ可能なオープンソースモデルを提供する。この二刀流戦略は、グローバルなAIエコシステムにおけるBaiduの存在感を高める上で重要な役割を果たすだろう。

AD

AIを日常に組み込む、Baiduのアプリケーション群

ロビン・リー氏が語る「逆ピラミッド」の実現には、強力な基盤モデルを具体的な価値に変えるアプリケーションが不可欠だ。Baidu World 2025では、ERNIE 5.0を核とした多彩なAI製品群のアップデートも発表された。

「GenFlow 3.0」と自己進化型エージェント「Famou」

複雑なタスクやワークフローを自動化する汎用AIエージェント「GenFlow」はバージョン3.0にアップデートされた。ユーザー数はすでに2,000万人を超え、世界最大級の汎用エージェントとなっている。 GenFlow 3.0では、マルチモーダル能力と記憶能力が大幅に強化され、複数のモダリティにまたがるコンテンツの入出力・処理が可能になった。

さらに、世界初となる商用自己進化型エージェント「Famou」が発表された。 Famouは、トップクラスのアルゴリズム専門家の思考をシミュレート、あるいは凌駕し、複雑な問題を抽象化して最適な解決策を自律的に反復・探索できるという。 交通、エネルギー、金融、物流といった刻々と状況が変化する複雑なシナリオでの活用が期待されており、招待制で提供が開始された。

ノーコード開発の民主化「MeDo」とAIワークスペース「Oreate」

Baiduのノーコード・アプリケーションビルダー「Miaoda」は2.0にアップグレードされ、すでに40万以上のアプリケーションが生成されている。 今回、その国際版である「MeDo」がグローバルにローンチされ、世界中の開発者が専門知識なしにAIアプリケーションを構築できるようになった。

また、海外市場向けに設計されたワンストップAIワークスペース「Oreate」は、文書、スライド、画像、動画、ポッドキャストなど、あらゆるコンテンツ制作を支援するマルチエージェント・アーキテクチャを採用。すでに世界で120万人以上のユーザーを獲得しているという。

検索エンジンの再発明とデジタルヒューマンの進化

Baidu Searchの変革は注目に値するものだ。Baiduは、AIを用いて検索結果ページを根本的に再構築し、現在ではトップ1に表示される検索結果の約70%が画像や動画などのリッチメディア形式で提供されている。 これは、従来のテキストとリンク中心の検索から、AIがコンテンツを直接生成・提示する体験へのパラダイムシフトを意味する。

また、リアルタイム対話型デジタルヒューマン技術も大きく進化した。今年の「独身の日(ダブルイレブン)」セールでは、ライブコマース配信者の83%がBaiduのデジタルヒューマン技術を利用し、参加配信数が前年比119%増、GMV(流通取引総額)が91%増という驚異的な成果を上げた。 この技術はすでにブラジルで展開されており、今後は米国や東南アジア市場への拡大も計画されている。

物理世界への展開:自動運転「Apollo Go」と独自半導体「Kunlun」

BaiduのAI戦略は、デジタル空間に留まらない。物理世界におけるAIの実装も着実に進んでいる。

累計1700万乗車、世界最大級のロボタクシー網

Baiduの自動運転配車サービス「Apollo Go」は、累計乗車回数が1,700万回を突破し、世界最大のロボタクシーネットワークとしての地位を確立した。 直近の週間乗車回数は25万回を超え、そのすべてが完全無人運転で実施されているという。 これまで累計2億4,000万km以上の自動運転走行実績を誇り、そのうち1億4,000万km以上が完全無人モードでの走行だ。 現在、世界22都市でサービスを展開しており、自動運転が都市の交通インフラに変革をもたらす未来を現実のものとしつつある。

規制下で進む半導体自給への道

米国の先端AI半導体に対する輸出規制が厳しさを増す中、Baiduは独自のAIチップ「Kunlun(崑崙)」の開発も加速させている。今回のイベントでは、新たなロードマップが示された。

  • Kunlun M100: 大規模なAIモデルの推論シナリオに最適化。2026年初頭に発売予定。
  • Kunlun M300: 超大規模なマルチモーダルモデルのトレーニングと推論に対応。2027年初頭に発売予定。

これらの独自チップ開発は、外部への依存を低減し、パフォーマンスとコストを最適化するための重要な戦略的投資である。ハードウェアからモデル、アプリケーションまでを垂直統合で手がけることで、BaiduはAIエコシステム全体の競争力を高めようとしている。

AD

評価と課題:グローバル市場での試金石

Baiduが打ち出した一連の発表は、技術的な先進性だけでなく、グローバル市場への強い意欲を示すものだ。しかし、その道は平坦ではない。

価格戦略と開発者コミュニティとの対話

ERNIE 5.0のAPI価格は、Baiduのモデルラインナップの中ではプレミアムな位置付けだが、国際市場では興味深い価格設定となっている。ERNIE 5.0の価格はOpenAIのGPT-5.1やGoogleのGemini 2.5 Proよりも安価に設定されているが、 これは、性能で競合に比肩しつつ、価格で優位性を持たせることでグローバルな顧客を獲得しようという明確な戦略の表れだろう。

モデル入力 (100万トークンあたり)出力 (100万トークンあたり)
GPT-5.1$1.25$10.00
ERNIE 5.0$0.85$3.40
Claude Opus 4.1$15.00$75.00
Gemini 2.5 Pro$1.25~$10.00~

また、グローバルな開発者コミュニティとの関係構築もBaiduの課題だ。ERNIE 5.0の発表後、ある開発者がX(旧Twitter)上でSVG生成タスクに関するバグを報告したところ、Baiduの開発者向けアカウントが数時間で応答し、既知の問題であることと修正に取り組んでいることを伝えた。 このような迅速で透明性のある対応は、海外の開発者からの信頼を得る上で不可欠であり、今後のBaiduの姿勢を占う試金石となる。

Baiduは西側AI巨人の真の対抗馬となりうるか

今回の発表を総合的に分析すると、Baiduが単なる中国国内の巨大企業から、グローバルなAIインフラプロバイダーへと脱皮しようとする強い意志が見て取れる。その戦略は多角的かつ巧妙だ。

  1. 技術的リーダーシップの主張: 「ネイティブ・オムニモーダル」という新たな概念を提唱し、特定のベンチマークで西側の巨人たちを凌駕すると主張することで、技術的な対等性、あるいは優位性をアピールしている。
  2. エコシステムの垂直統合: 独自半導体「Kunlun」、基盤モデル「ERNIE」、そして「GenFlow」や「Oreate」といった無数のアプリケーション群。この垂直統合は、最適化されたパフォーマンスと、ユーザーを自社エコシステムに留める強力なロックイン効果を生む可能性がある。
  3. 柔軟な市場戦略: プロプライエタリモデルとオープンソースモデルを使い分ける二刀流戦略は、エンタープライズと開発者コミュニティの両方を射程に収める現実的なアプローチだ。

Baiduが西側のAI巨人の真の対抗馬となりうるかは、技術力だけでなく、国際的な信頼性、データのプライバシーとセキュリティに対する姿勢、そして各国の文化や規制への適応能力にかかっている。特に欧米市場でのブランド認知度の低さや地政学的な障壁は無視できない。

しかし、ERNIE 5.0が示した技術的到達点と、それを社会実装するための具体的な製品・サービス群、そしてグローバル展開への明確なコミットメントは、世界のAI勢力図が新たな局面に入ったことを告げている。


Sources