世界のAI開発競争に、激震が訪れている。中国のAIスタートアップ「DeepSeek」が2024年12月、そして今月に相次いで発表した言語モデルが、OpenAIやAnthropicといった米国の巨人たちを震撼させているのだ。驚くべきことに、この革新は米国による半導体輸出規制という制約の中で生まれた。
驚異的な開発効率で実現した世界最高峰の性能
DeepSeekが1月に発表したDeepSeek-R1の登場は、AIの開発手法に関する既存の常識を根本から覆すものとなった。同モデルは、複雑な推論を必要とするタスクにおいて「Chain-of-Thought(CoT:思考の連鎖)」と呼ばれる手法を採用。これにより、自身の論理を段階的に検証しながら、より正確な解答を導き出すことを可能にしている。
特筆すべきは、このモデルがOpenAIのo1と同等以上の性能を示したベンチマークテストの結果だ。問題解決能力、コーディング、数学的処理など、広範な分野での評価において、Meta社のLlama 3.1やAlibabaのQwen2.5を大きく上回る成績を収めている。
開発効率の面でも、従来のAIモデル開発の常識を完全に覆している。一般的に大規模言語モデルの開発には、数百億円規模の予算と半年から1年程度の期間が必要とされる。しかしDeepSeekは、わずか558万ドル(約8億円)という予算と2ヶ月という短期間でこのモデルを完成させた。この驚異的な効率性は、シリコンバレーのAI研究者たちに大きな衝撃を与えている。
さらに注目すべきは、モデルの学習効率だ。ChatGPTが学習時に必要とした約1万基のNVIDIA GPUに対し、DeepSeekは約2,000基で同等の性能を達成。この5分の1という驚異的な効率性は、同社が開発した革新的な学習アルゴリズムの成果といえる。実際、このモデルはCommon Crawlから収集された約570GBのテキストデータ(約3,000億語に相当)を効率的に処理し、高度な言語理解と推論能力を獲得している。
産業界への実用面でも、DeepSeek-R1は大きな可能性を示している。科学者やエンジニアにとって特に重要な、複雑な推論を必要とする技術的タスクにおいて高い性能を発揮。これにより、研究開発やソフトウェア開発の現場での実践的な活用が期待されている。
革新は金融の“副業”から始まった
DeepSeekの物語は、1985年に湛江の小学校教師のもとに生まれた梁文峰(Liang Wenfeng)から始まる。彼は2006年に浙江大学を卒業後、修士課程で金融の機械学習を研究した。
2015年に梁氏は2人の同級生とともにクオンツ・ヘッジファンド「High-Flyer」を設立し、6年間で約130億ユーロを運用するまでに成長させた。この成功が、2019年のAI研究に特化したHigh-Flyer AI設立につながった。
2021年、お金のかかる趣味と思われたものが、より重要なものに変わった。梁氏は、彼がAIの “副業”と呼ぶもののために、何千ものNVIDIA GPUを購入し始めたのだ。この選択は、まさに彼の先見の明が現れたこと、また運にも恵まれ、High-Flyerは、米国の輸出規制が始まる前に1万個以上のNVIDIA A100 GPUを入手することができ、ディープラーニングに特化したスーパーコンピューター「Fire-Flyer」を強化するために使用し、最終的な成功の基礎を築いた。
2023年5月にHigh-Flyerは大規模言語モデルの開発に特化した「DeepSeek」を設立した。華々しいテック企業というより「真面目な研究者のための大学キャンパス」(Financial Times)という感じだという。
Deepseekは、最初の製品であるDeepseek Coderをすぐにリリースし、続いてより大規模なDeepseek LLMを、そしてその後1年以内に大幅に改良されたCoder-V2とDeepseek-V2をリリースした。
200~300人の従業員のうち、100~140人がモデル開発に携わっている。Deepseekの特徴は、商業的応用よりも基礎研究に焦点を絞っていることだ。Deepseekの研究者Deli Chen氏によれば、同社はHigh-Flyer社から全額出資を受けており、人工知能(AGI)の追求に至るまで、その研究をオープンソース化することを約束している。
チームは利益よりも研究を優先しているが、DeepSeekは中国で最も高いAIエンジニアの給与を提供しているByteDanceに匹敵するとFinancial Timesは報じている。
その後のDeepSeek v3、そしてDeepSeek-R1の発表により、DeepSeekは今最も注目を集めるAI企業の1つへと成長を遂げている。
制約が生んだイノベーション
米国による半導体輸出規制は、中国のAI開発に予期せぬ革新をもたらした。特にDeepSeekの事例は、技術的制約がかえって効率性を高める結果となった典型的な例といえる。MicrosoftのSatya Nadella CEOがダボス会議で示した危機感は、まさにこの点に向けられている。
DeepSeekのエンジニアリングチームは、最新鋭のNVIDIA H100 GPUへのアクセスを制限された環境で開発を進めた。そのため、利用可能な計算リソースを最大限に活用するための革新的なアルゴリズム開発に注力せざるを得なかった。この制約が逆に、より効率的な学習方法の確立を促すことになった。Benchmark General PartnerのChetan Puttagunta氏が指摘するように、DeepSeekは「ディスティレーション」と呼ばれるプロセスを活用。大規模モデルの知識を小規模モデルに効率的に転移させる手法を確立している。
この革新的なアプローチは、産業界に大きな示唆を与えている。Perplexity CEOのAravind Srinivas氏が「必要は発明の母」と評したように、輸出規制という制約が、より効率的なソリューションの開発を促したのだ。実際、DeepSeekの成功は、高性能なハードウェアへのアクセスが制限された環境下でも、革新的なソフトウェア設計によって競争力のあるAIモデルを開発できることを実証した。
この成果は、中国のAI開発全体にも波及している。01.aiの創業者であり、著名なAI研究者の李開復氏は、わずか300万ドルでの学習モデル開発に成功。さらにByteDanceも「Doubao-1.5-pro」で、OpenAIのGPT-4oと同等の性能を50分の1のコストで実現している。これらの事例は、制約下での効率追求が、中国のAI産業全体の競争力向上につながっていることを示している。
このような展開は、AI開発における「より多くのリソースを投入する」というアプローチに再考を迫るものだ。むしろ、限られたリソースを最大限に活用する効率的な開発手法の重要性を浮き彫りにしている。米国の輸出規制は、意図せずして中国のAI企業に革新を促す触媒となったといえる。
シリコンバレーに突きつけられた新たなパラダイム
DeepSeekの登場は、AIビジネスの既存のパラダイムを根本から揺るがしている。同社が採用したオープンソースモデルというアプローチは、AIの民主化に向けた重要な一歩として評価されている。モデルのウェイトを公開し、ユーザーによるカスタマイズや改良を可能にしたことで、研究者やエンジニアは自由にモデルを改良し、特定の用途に最適化できるようになった。
この方針は、シリコンバレーの重鎮たちからも注目を集めている。WebブラウザMosaicの共同開発者で、ベンチャーキャピタルAndreessen Horowitz(a16z)のゼネラルパートナーであるMarc Andreessen氏は、「DeepSeek R1は、私が見た中で最も驚くべき革新的なブレークスルーの一つであり、オープンソースとして世界への重要な贈り物となる」と評価している。
特に注目すべきは、MetaのファンダメンタルAIリサーチ(FAIR)部門のチーフAIサイエンティスト、Yann LeCun氏の見解だ。同氏は「DeepSeekの成功を『中国が米国のAIを凌駕している』と解釈するのは誤りである。正しい解釈は『オープンソースモデルが独自モデルを凌駕している』というものだ」と指摘している。DeepSeekはMetaのPyTorchやLlamaといったオープンソースの研究成果を基盤として活用し、そこに新しいアイデアを重ねることで革新を実現した。
APIの利用料金設定も、業界に大きな衝撃を与えている。OpenAIの1/27という破格の料金設定は、AI技術の実用化における経済的障壁を大きく引き下げた。無料のWebサイトとモバイルアプリの提供は、より広範なユーザーへのアクセスを可能にしている。
この動きは、既存のAI企業のビジネスモデルに再考を迫るもの高額な開発コストと独自のインフラストラクチャーに依存してきた従来のAIビジネスモデルの持続可能性に疑問を投げかけている。
特にシリコンバレーの企業にとって、DeepSeekが与えた衝撃は大きな物だ。効率的な開発手法とオープンソース戦略の成功は、AI開発の新しいパラダイムの可能性を示唆している。OpenAIのSam Altman CEOが、次世代モデル「o3」を無料ユーザーにも提供する方針を示したのは、この変化への対応を迫られている証左といえるだろう。
Source
コメント