中国の人工知能(AI)企業DeepSeekは、OpenAIやAnthropicなどの米国企業の最先端製品に匹敵する、極めて効率的なAIモデルのリリースにより、テクノロジー業界に衝撃を与えている。
2023年に設立されたDeepSeekは、競合他社と比べてわずかな資金と計算能力で、これらの成果を達成した。
先週リリースされたDeepSeekの「推論」モデルR1は、研究者の間で興奮を、投資家の間でショックを引き起こし、AI業界の大手企業からの反応を引き出した。同社は1月28日に、テキストに加えて画像も処理できるモデルを発表した。
DeepSeekは何を行い、どのようにしてそれを実現したのか?
DeepSeekが行ったこと
12月、DeepSeekはV3モデルをリリースした。これは非常に強力な「標準的な」大規模言語モデルで、OpenAIのGPT-4oやAnthropicのClaude 3.5と同等のレベルで機能する。
これらのモデルは誤りを起こしやすく、時には事実を捏造することもあるが、質問への回答、エッセイの作成、コンピュータコードの生成などのタスクを実行できる。問題解決や数学的推論のテストでは、人間の平均よりも高いスコアを記録している。
V3の開発費用は約558万米ドルと報告されている。これは例えばGPT-4の開発費用1億米ドル以上と比べて劇的に安価である。
DeepSeekはまた、NVIDIAが製造するH800 GPU約2,000個の特殊なコンピュータチップを使用してV3を訓練したと主張している。これも他社と比べてはるかに少なく、他社は最大16,000個のより強力なH100チップを使用した可能性がある。
1月20日、DeepSeekは別のモデルR1をリリースした。これはいわゆる「推論」モデルで、複雑な問題を段階的に処理しようとするものである。これらのモデルは、読解力や戦略的計画など、文脈を必要とし、複数の相互関連する部分を持つ多くのタスクでより優れた性能を発揮するように見える。
R1モデルはV3の改良版で、強化学習と呼ばれる技術で修正されている。R1は昨年リリースされたOpenAIのo1と同等のレベルで機能するように見える。
DeepSeekはまた、同じ技術を使用して、家庭用コンピュータで実行できる小規模なオープンソースモデルの「推論」バージョンも作成した。
このリリースはDeepSeekへの大きな関心の高まりを引き起こし、V3を搭載したチャットボットアプリの人気を上昇させ、投資家がAI業界を再評価する中で、テクノロジー株の大幅な価格下落を引き起こした。本稿執筆時点で、チップメーカーのNVIDIAは約6,000億米ドルの価値を失っている。
DeepSeekの手法
DeepSeekのブレークスルーは、より少ないリソースで良好な結果を得るという効率性の向上にあった。特に、DeepSeekの開発者たちは、AI研究者によってより広く採用される可能性のある2つの技術を開拓した。
1つ目は「スパース性」と呼ばれる数学的概念に関係している。AIモデルには入力に対する応答を決定する多くのパラメータがあり(V3には約6,710億個)、特定の入力に使用されるのはそのうちのわずかな割合である。
しかし、どのパラメータが必要になるかを予測するのは簡単ではない。DeepSeekはこれを行うための新しい技術を使用し、それらのパラメータのみを訓練した。その結果、従来のアプローチと比べて、モデルの訓練に必要な工程が大幅に減少した。
もう1つの手法は、V3がコンピュータメモリに情報を保存する方法に関係している。DeepSeekは関連データを圧縮する巧妙な方法を見出し、保存とアクセスを容易にした。
これが意味すること
DeepSeekのモデルと技術は、フリーのMITライセンスの下でリリースされており、誰でもダウンロードして修正することができる。
これは一部のAI企業にとっては悪いニュースかもしれない(無料で利用可能な強力なモデルの存在により利益が侵食される可能性がある)が、より広範なAI研究コミュニティにとっては素晴らしいニュースである。
現在、多くのAI研究には膨大な計算リソースへのアクセスが必要である。私のような大学(または大手テクノロジー企業以外)を拠点とする研究者は、テストや実験を実施する能力が限られていた。
より効率的なモデルと技術は、この状況を変える。実験と開発が我々にとって大幅に容易になる可能性がある。
消費者にとっても、AIへのアクセスがより安価になる可能性がある。より多くのAIモデルが、サブスクリプション料金を支払って「クラウド」で実行するのではなく、ラップトップやスマートフォンなど、ユーザー自身のデバイスで実行される可能性がある。
既に多くのリソースを持っている研究者にとって、効率性の向上は影響が小さいかもしれない。DeepSeekのアプローチが、全体的により優れた性能を持つモデルの開発に役立つのか、単により効率的なモデルの開発に役立つだけなのかは不明確である。
コメント