OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeといった最先端の人工知能システムは、ユーザーのプロンプトに応じて複数の言語で流暢なテキストを生成することで、大衆の想像力を掻き立てている。これらの企業はまた、より強力なモデルを構築するために投資した巨額の資金でも話題を呼んでいる。
中国のAIスタートアップであるDeepSeekは、最新かつ最高のAIを構築するために必要な資金に関する期待を覆した。その過程で、大手AI企業による数十億ドルの投資に疑問を投げかけることとなった。
私は機械学習を研究している。DeepSeekの破壊的なデビューは、驚くべき技術的ブレークスルーによるものではなく、効率性を追求するという古くからの実践によるものである。膨大な計算リソースを消費する分野において、これは重要な意味を持つことが判明した。
コストの所在
このような強力なAIシステムの開発は、大規模言語モデルの構築から始まる。大規模言語モデルは、前の単語から次の単語を予測する。例えば、文章の始まりが「相対性理論を発見したのはアルバート」である場合、大規模言語モデルは次の単語として「アインシュタイン」を予測する可能性がある。大規模言語モデルは事前学習と呼ばれるプロセスでこのような予測が得意になるよう訓練される。
事前学習には大量のデータと計算能力が必要である。企業はWebをクロールし、書籍をスキャンしてデータを収集する。計算は通常、グラフィックス処理ユニット(GPU)によって処理される。なぜグラフィックスなのか?コンピュータグラフィックスと、大規模言語モデルの基礎となる人工ニューラルネットワークの両方が、線形代数として知られる同じ数学分野に依存しているからである。大規模言語モデルは内部的にパラメータまたは重みと呼ばれる数千億の数値を保存している。これらの重みが事前学習中に修正される。
しかし、事前学習だけではChatGPTのような消費者向け製品を生み出すには不十分である。事前学習された大規模言語モデルは通常、人間の指示に従うことが得意ではない。また、人間の好みとも一致しない可能性がある。例えば、Web上に存在する有害または攻撃的な言語を出力する可能性がある。
そのため、事前学習されたモデルは通常、追加の学習段階を経る。その一つが指示チューニングで、モデルは人間の指示と期待される応答の例を学習する。指示チューニング後には、人間のフィードバックによる強化学習という段階が来る。この段階では、人間のアノテーターに同じプロンプトに対する複数の大規模言語モデルの応答が示される。そしてアノテーターは、どの応答が好ましいかを指摘するよう求められる。
AIモデルの構築にコストが積み重なる理由は容易に理解できる:一流のAI人材の雇用、数千台のGPUを備えたデータセンターの構築、事前学習用のデータ収集、GPUでの事前学習の実行。さらに、指示チューニングと人間のフィードバックによる強化学習の段階におけるデータ収集と計算のコストも加わる。
すべてを含めると、最先端のAIモデルの構築コストは1億ドルにまで膨らむ可能性がある。GPU訓練は総コストの重要な要素である。
支出はモデルが完成しても終わらない。モデルがデプロイされ、ユーザーのプロンプトに応答する際、テスト時または推論時の計算として知られる追加の計算を使用する。テスト時の計算にもGPUが必要である。2024年12月、OpenAIは最新モデルo1で新しい現象を発見したと発表した:テスト時の計算が増加するにつれて、モデルは数学オリンピックや競技プログラミングなどの論理的推論タスクが上手くなった。
リソース消費の削減
このように、世界最高のAIモデルを構築する道は、学習時と推論時の両方でより多くの計算に投資することだと思われた。しかし、DeepSeekが参入し、この傾向を覆した。
彼らのVシリーズモデル(V3モデル)は、一連の最適化を使用して最先端のAIモデルの訓練を大幅に経済的なものにした。彼らの技術報告書によると、V3の訓練には600万ドル未満しかかからなかった。チームの雇用、研究の実施、様々なアイデアの試行、データ収集のコストは含まれていないと認めているが、はるかに高いコストで開発された主要なAIモデルと競合するモデルの訓練に600万ドルという数字は印象的に小さい。
コストの削減は単一の特効薬によるものではなかった。モデルの重みを表現するビット数の削減、ニューラルネットワークアーキテクチャの革新、GPU間でデータが受け渡される際の通信オーバーヘッドの削減など、多くの賢明なエンジニアリングの選択の組み合わせによるものであった。
興味深いことに、中国に対する米国の輸出規制により、DeepSeekチームはNVIDIA H100のような高性能GPUへのアクセスができなかった。代わりに、米国の輸出規制に準拠するようNVIDIAが設計した低性能のNVIDIA H800 GPUを使用した。この制限下で作業することで、DeepSeekチームからさらなる創意工夫が引き出されたようである。
DeepSeekはまた、推論をより安価にするための革新も行い、モデルの実行コストを削減した。さらに、OpenAIのo1モデルと推論タスクで比較可能なR1というモデルをリリースした。
彼らはV3とR1の全モデルの重みを公開した。誰でもこれらのモデルをダウンロードし、さらに改善またはカスタマイズすることができる。さらに、DeepSeekはこれらのモデルを寛容なMITライセンスの下でリリースし、最小限の制限で個人、学術、または商業目的での使用を他者に許可している。
期待値の再設定
DeepSeekは大規模AIモデルの景観を根本的に変えた。経済的に訓練されたオープンウェイトモデルが、有料サブスクリプションプランを必要とする、より高価でクローズドなモデルと同等になったのである。
研究コミュニティと株式市場は、この新しい現実に適応するには時間が必要だろう。
コメント