DeepSeekが発表した最新AIモデル「V3」の開発費用600万ドルは、GPUレンタル代のみを指し、実際には13億ドルに及ぶ可能性があると独立系調査会社SemiAnalysisが調査した結果を報告している。その内訳と背景、DeepSeekの戦略について、詳しく見てみよう。
AI界を席巻するDeepSeek、その陰に隠された巨額投資
中国発のAIスタートアップDeepSeekが、その高性能AIモデルと破格の低価格で世界的な注目を集めている。特に話題を呼んだのは、最新モデル「V3」のトレーニング費用がわずか600万ドルと発表されたことだ。OpenAIのChatGPTやGoogleのGeminiといった競合モデルと比較して、桁違いの低コストは、AI業界に大きな衝撃を与えた。
しかし、半導体調査会社SemiAnalysisは、この600万ドルという数字はDeepSeekのAI開発における氷山の一角に過ぎないと指摘する。同社が発表した最新レポートによると、DeepSeekのハードウェア投資は創業以来5億ドルを優に超え、サーバー関連の設備投資総額(CapEx)は16億ドル、運用コストに至っては9億4400万ドルに達するという。一体、DeepSeekのAI開発にはどれほどの費用が投じられているのだろうか。
「600万ドル」は事前トレーニング費用の一部に過ぎない
DeepSeekが公開した技術論文で言及された「557.6万ドル」という数字は、NVIDIA製GPUのレンタル費用を基に算出された、V3モデルの「公式トレーニング」におけるGPUコストのみを指す。DeepSeek自身も論文内で、この数字には「アーキテクチャ、アルゴリズム、データに関する事前の研究開発や実験的試行錯誤(ablation experiments)にかかる費用は含まれていない」と明記している。
SemiAnalysisは、この点を踏まえ、600万ドルはモデル開発全体のコストのごく一部に過ぎないと指摘。実際、AIモデルの開発には、モデルアーキテクチャの研究開発、データ収集とクレンジング、従業員の人件費、そして大規模なGPUクラスタの構築と運用など、多岐にわたる費用が発生する。AnthropicのClaude 3.5 Sonnetの開発費用が数千万ドル規模であることを考えると、DeepSeekのAI開発にかかる総費用も、600万ドルを大きく上回ることは想像に難くない。
SemiAnalysisが試算した「13億ドル」の内訳
SemiAnalysisのレポートによると、DeepSeekのサーバー関連設備投資総額は16億ドル、運用コストは9億4400万ドルに達する。これは、DeepSeekが保有する大規模なGPUクラスタの規模から推測された数字だ。SemiAnalysisは、DeepSeekが約5万基のHopperアーキテクチャGPU(H100、H800、H20など)を保有していると分析している。
DeepSeekは、2021年の輸出規制前に1万基のA100 GPUをヘッジファンド「High-Flyer」として購入しており、その後も規制をかいくぐりながらGPU調達を進めてきたと見られる。NVIDIAが中国市場向けに特別に製造したH800やH20も活用し、大規模なGPUクラスターを構築。これらのGPUは、DeepSeekとHigh-Flyerで共有され、トレーディング、推論、トレーニング、研究開発など多岐にわたる用途で使用されている。
SemiAnalysisは、DeepSeekがデータセンターも自社で運営している点に着目。外部のクラウドプロバイダーに依存せず、自社でデータセンターを運営することで、より柔軟な実験環境を構築し、AI開発のスピードを加速させていると分析する。
DeepSeekの技術革新とコスト効率
ただし、開発費用は確かに高額だが、DeepSeekは運用コストを大幅に削減することに関して目覚ましい成果を上げているようだ。特に注目されるのは、推論コストを大幅に削減する「Multi-head Latent Attention(MLA)」技術だ。MLAは、TransformerモデルにおけるKVキャッシュの使用量を93.3%削減し、推論に必要なハードウェアリソースを大幅に削減する。これにより、DeepSeekは高性能なAIモデルを低コストで提供することを可能にしている。
また、DeepSeek V3では、学習効率を高める「Multi-Token Prediction(MTP)」や、MoE(Mixture of Experts)モデルの効率的なルーティング技術である「gating network」などの革新的な技術が導入されている。これらの技術革新により、DeepSeekは少ない計算資源で高性能なモデルを開発することに成功している。
SemiAnalysisは、DeepSeekを「現在最高のオープンウェイトAIラボ」と評価し、MetaのLlamaやMistralといった競合を凌駕する存在と見ている。その理由として、DeepSeekが官僚主義的な組織構造を持たず、自己資金で運営されているため、迅速な意思決定と実行が可能であることを挙げている。
輸出規制と今後の展望
DeepSeekの躍進は、アメリカの対中輸出規制という背景も考慮する必要がある。SemiAnalysisは、DeepSeekが大規模なGPUクラスターを構築できた要因の一つとして、輸出規制のタイムラグを指摘している。輸出規制が強化される前にGPUを調達できたことが、DeepSeekのAI開発を後押しした可能性がある。
もっとも、アメリカ政府は輸出規制をさらに強化する構えを見せており、今後のDeepSeekのGPU調達は不透明だ。しかし、DeepSeekはHuaweiとの連携も発表しており、Ascendチップなどの国産GPUの活用も視野に入れていると見られる。
SemiAnalysisは、DeepSeekの今後のコスト削減の可能性にも言及。MLAなどの技術革新に加え、モデルのアルゴリズム改善も進むことで、AIの運用コストは年末までにさらに5分の1に低下する可能性があると予測する。
DeepSeekの登場は、AI業界の勢力図を塗り替えつつある。高性能モデルを低コストで開発・提供するDeepSeekの戦略は、AIの民主化を加速させる可能性を秘めている。しかし、その陰には巨額の投資と技術革新、そして地政学的な要因が複雑に絡み合っていることを、今回のSemiAnalysisのレポートは示唆している。
Source
コメント