中国のAIスタートアップDeepSeekが、671Bパラメータを擁する超大規模言語モデル「DeepSeek-V3」を公開した。同モデルは、オープンソースモデルとしては最高性能を達成し、OpenAIやAnthropicの商用モデルに迫る性能を示している。
革新的なアーキテクチャで効率的な学習を実現
DeepSeek-V3の核となるアーキテクチャは、マルチヘッド潜在アテンション(MLA)とDeepSeekMoEを組み合わせた独自の設計を採用している。特に注目すべきは、Mixture-of-Experts(MoE)アーキテクチャの洗練された実装だ。671Bという膨大なパラメータの中から、各処理に最適な37Bパラメータのみを選択的に活性化することで、計算効率と処理性能の両立を実現している。
このアーキテクチャ上に、DeepSeekは二つの重要な技術革新を実装した。一つは補助損失を必要としない負荷分散戦略で、モデル全体のパフォーマンスを損なうことなく、専門家ネットワーク間の負荷を動的に監視・調整する。もう一つはマルチトークン予測(MTP)と呼ばれる技術で、複数の将来トークンを同時に予測することを可能にした。これにより、従来モデルと比較して3倍の速度となる毎秒60トークンの生成を実現している。
学習プロセスにおいても、革新的なアプローチが採用された。まず14.8兆トークンの高品質かつ多様なデータセットによる事前学習を実施。その後、二段階のコンテキスト長拡張を行い、最初の段階で32K、次の段階で128Kまで拡張している。さらに、教師付き微調整(SFT)と強化学習(RL)による後処理を実施し、人間の選好に合わせたモデルの調整を行った。
効率化の観点では、FP8混合精度トレーニングフレームワークとDualPipeアルゴリズムによるパイプライン並列処理の採用が特筆される。これらの最適化技術により、NVIDIA H800 GPU約2,000基による2,788,000GPU時間の学習で、わずか557万ドルという驚異的な低コストでの開発を実現。これはMetaのLlama 3.1の開発費用とされる5億ドルと比較して、画期的な効率化を達成したと言える。
ベンチマークで示された卓越した性能
DeepSeek-V3の性能評価は、多岐にわたるベンチマークテストによって実施され、特に数学、プログラミング、中国語処理において際立った結果を示している。
最も注目すべき成果は数学分野での性能だ。数学的推論能力を測定するMath-500ベンチマークにおいて90.2%という驚異的なスコアを達成した。これは次点のQwenモデルの80%を大きく引き離すだけでなく、商用の大規模言語モデルと比較しても最高水準の結果となっている。この高スコアは、DeepSeekが実施したDeepSeek-R1シリーズからの推論能力の蒸留が効果的に機能したことを示唆している。
プログラミング能力の評価では、Codeforcesプラットフォームでの競技プログラミングテストとAider Polyglotテストで特筆すべき成果を上げた。特にAider Polyglotでは、既存のコードベースへの新規コード統合能力が評価され、MetaのLlama 3.1 405B、OpenAIのGPT-4o、AlibabaのQwen 2.5 72Bといった強力なライバルモデルを凌駕する性能を示した。
しかしながら、全てのベンチマークで首位を獲得したわけではない。英語に特化したSimpleQAでは24.9点、FRAMESでは73.3点を記録し、GPT-4oの38.2点と80.5点には及ばなかった。また、Anthropicの最新モデルであるClaude 3.5 Sonnetとの比較では、MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified、Aider-Editといった複数の評価指標で下回る結果となっている。
Xenospectrum’s Take
DeepSeek-V3の登場は、AIモデル開発における「効率化」という新たなフェーズの到来を示唆している。従来、超大規模モデルの開発は、潤沢な資金力を持つ大手テック企業のみが可能とされてきた。しかし、DeepSeekは革新的なアーキテクチャと最適化技術により、従来の10分の1以下のコストで競争力のあるモデルを開発することに成功した。
特筆すべきは、このコスト効率の高さが単なる「安かろう悪かろう」ではないという点だ。Math-500での圧倒的なスコアが示すように、特定の領域では最先端の性能を実現している。これは、今後のAI開発における「量」から「質」への転換点となる可能性を秘めている。
ただし、中国企業であるがゆえの制約—たとえば特定の政治的トピックへの回答制限—は、グローバル展開における潜在的な課題となるだろう。
Sources
- DeepSeek (X)
- GitHub:
コメント