中国のテクノロジー大手Alibabaが、DeepSeekの推論モデルR1に匹敵する性能を持ちながら、わずか20分の1のリソースで動作する新型AI推論モデル「QwQ-32B」を発表した。この発表を受け、香港市場におけるAlibabaの株価は8.39%上昇し、52週間の最高値を更新している。
少ないリソースで最高峰の性能を実現
QwQ-32Bは、その名が示す通り32億(32B)のパラメータを持つAI推論モデルである。対照的に、DeepSeek R1は総計671億のパラメータを持ち、推論時には37億のパラメータを活性化させる。パラメータ数の少なさは、AIモデルの効率性を示す重要な指標となる。
Alibabaの新モデルは、Transformerアーキテクチャをベースに、Rotary Positional Encodingなどの重要な改良を加えている。これにより、テキスト間の関係をより深く理解し、出力品質を向上させることに成功したという。
QwQ-32Bは最大131,072トークンの処理が可能な推論モデルであり、数学問題の解決、コーディング、外部アプリケーションでのタスク実行に特に優れているとのことだ。
ハードウェア要件の面でも大きな違いがある。DeepSeek-R1はフル実行時に1500GB以上のvRAM(16台のNVIDIA A100 GPU)を必要とするのに対し、QwQ-32Bは通常24GBのvRAMで動作可能だ。この大幅なリソース効率の向上は、企業にとってAI導入コストの低減を意味する。
強化学習によるブレークスルー
QwQ-32Bの開発における最大の革新は、強化学習(Reinforcement Learning; RL)の徹底した活用にある。AlibabaのQwenチームは、2段階の訓練プロセスを実施した。
最初の段階では、数学とコーディングタスクに特化した強化学習を実施。「従来の報酬モデルに頼るのではなく、数学問題の正確性を確保するための精度検証機と、生成されたコードが事前定義されたテストケースに合格するかどうかを評価するコード実行サーバーを活用しました」とQwenの技術文書は説明している。
第2段階では、一般的な能力向上に焦点を当てた強化学習を実施。これにより「指示への順守、人間の好みとの一致、エージェントのパフォーマンスなどの一般的な能力が向上し、数学とコーディングのパフォーマンスが大幅に低下することはなかった」という。
このアプローチが功を奏し、ベンチマークテストでは5つのうち3つでDeepSeek-R1を上回る結果を達成した。特に外部システムとの対話能力を測るベンチマークでは6%の優位性を示している。

株価急騰とオープンソースの影響力
QwQ-32Bの発表を受け、香港市場でのAlibaba株は8.39%上昇し、52週間の最高値を更新した。ニューヨーク市場では約1%下落したものの、同社の香港上場株は年初来で71%近く上昇している。
Bernsteinのアナリストによれば、「AIの発展に関する楽観的な見方がAlibaba株の大幅な上昇につながり、同社の収益を上向きに導く可能性がある」としている。
特筆すべきは、QwQ-32BがApache 2.0ライセンスの下でHugging FaceとModelScopeで公開されていることだ。これは商用および研究目的での利用が可能であり、企業は即座に自社の製品やアプリケーションに活用できる。個人ユーザーはQwen Chatを通じてアクセスすることも可能だ。これにより、開発者や企業はこれを自由に適応させ商業化できるようになり、OpenAIのo1のような独自代替品と差別化されている。
中国AI開発競争の激化と将来展望
QwQ-32Bの発表は、Alibabaが今後3年間でAIインフラに380億元(約7,700億円)を投資すると発表した直後に行われた。これは過去10年間に同社がAIとパブリッククラウドプラットフォームに投資した金額を上回る規模である。
「将来を見据え、AIによって推進されるクラウドインテリジェンスグループの収益成長は引き続き加速するでしょう」とAlibabaのCEO Eddie Wuは述べている。
中国の他のテック企業もLLM開発を優先している。先週、Tencentは「Hunyuan Turbo S」と呼ばれる「高速思考」推論モデルを導入した。これは1秒未満でプロンプトに応答し、R1の前身であるDeepSeek-V3に匹敵する出力品質を持つという。
Futurum GroupのCEO Dan Newmanは「大規模言語モデルがますますコモディティ化されている」と指摘し、「開発者はコストを削減し、ユーザーへのアクセスを改善することを目指している」と分析している。
QwenチームはQwQ-32Bを「推論能力を高めるための強化学習のスケーリングの第一歩」と位置づけ、今後の展望として「強化学習のさらなるスケーリングによるモデル知能の向上」「長時間推論のためのエージェントとRLの統合」「AGI(汎用人工知能)に向けたより高度なトレーニング技術の開発」などを挙げている。
Sources
- Qwen: QwQ-32B: Embracing the Power of Reinforcement Learning
- CNBC: Alibaba shares soar after Chinese tech giant unveils new DeepSeek rival
コメント