テクノロジーと科学の最新の話題を毎日配信中!!

DeepSeekの次世代モデルは「自己改善」技術「SPCT」を取り入れ性能向上を目指す

Y Kobayashi

2025年4月9日

中国発のAI研究ラボDeepSeekが、大規模言語モデル(LLM)の性能向上に繋がる可能性のある画期的な新技術を発表し、注目を集めている。強力なオープンソースモデル「DeepSeek-R1」などで名を馳せる同社は、中国の清華大学と共同で「Self-Principled Critique Tuning (SPCT)」と呼ばれる報酬モデリングの新手法を開発した。これは、AI自身が評価基準を生成し、それに基づいて自己改善を促すというもので、特に同社の次世代モデル「R2」の発表が囁かれる中で、推論能力と汎用性を飛躍的に高める可能性を秘めた技術として注目を集めている。

スポンサーリンク

AI開発の核心「報酬モデル」とその限界

現代の高性能LLM開発において、強化学習(RL)は不可欠な要素となっている。RLでは、LLMが生成した応答の質を評価し、そのフィードバック(報酬)に基づいてモデルを微調整していく。このプロセスで「審判」の役割を果たすのが「報酬モデル(Reward Model, RM)」である。RMはLLMの出力を評価し、スコアやテキストによるフィードバックを与えることで、LLMがより人間にとって有用で望ましい応答を生成するよう導く。

しかし、既存のRMには限界があった。数学の問題解決やコーディングのように、明確な正解が存在したり、検証が容易だったりする特定のドメインでは高い性能を発揮するものの、現実世界の多様な問い合わせ、特に明確な答えのないオープンエンドな質問や主観的な評価が求められる場面では、質の高い報酬信号を生成することが困難だった。

DeepSeekの研究者らは論文で、「汎用的なRMは、特定のドメインを超えて高品質な報酬を生成する必要がある。そこでは報酬の基準がより多様かつ複雑で、明確な参照や正解が存在しないことが多い」と指摘する。彼らは汎用RM開発における主要な課題として以下の4点を挙げている。

  1. 入力の柔軟性: 様々な形式の入力(単一応答、複数応答の比較など)に対応できる必要がある。
  2. 精度の高さ: 多様で複雑な基準が求められるドメインにおいても、正確な報酬信号を生成しなければならない。
  3. 推論時のスケーラビリティ: より多くの計算リソース(推論時間やコンピューティングパワー)を投入した場合に、より質の高い報酬を出力できる必要がある。
  4. スケーラブルな振る舞いの学習: 推論時に効果的にスケールするためには、モデル自身が計算量に応じて性能を向上させるような振る舞いを学習する必要がある。

従来のRMのアプローチ、例えば単一スコアを出力する「スカラーRM」は、推論時スケーラビリティに乏しく(何度計算しても同じスコアになりがち)、応答ペアの優劣のみを判断する「ペアワイズRM」は単一応答の評価が苦手、といった制約があった。

これに対しDeepSeekは、モデルがテキスト形式の「批判(Critique)」を生成し、そこからスコアを導き出す「生成型報酬モデリング(Generative Reward Modeling, GRM)」に着目。このアプローチが、汎用性とスケーラビリティの要求を満たす上で有望であると考えた。

新技術「SPCT」:AIが自ら原則を作り、自己を評価する

このGRMの潜在能力を最大限に引き出すために開発されたのが、新技術「Self-Principled Critique Tuning (SPCT)」である。SPCTの核心は、RM自身が、評価対象となる応答を判断するための「原則(Principles)」を動的に生成し、その原則に基づいて「批判(Critiques)」を行うように学習させる点にある。

従来のConstitutional AIなどのアプローチでは、人間が事前に定義した原則(憲法)に基づいてAIをファインチューニングしていたが、SPCTでは原則生成自体を報酬生成プロセスの一部と捉える。これにより、RMは入力された質問と応答に応じて、その場で最適な評価基準を適応的に生成できるようになる。

「この転換により、原則が入力クエリと応答に基づいて生成され、報酬生成プロセスを適応的に調整することが可能になる。原則と対応する批判の質と粒度は、GRMのポストトレーニングによってさらに向上させることができる」と研究者らは述べている。

SPCTの学習プロセスは、主に以下の2つのフェーズで構成される。

  1. 拒否型ファインチューニング(Rejective Fine-Tuning – Cold Start): まず、事前学習済みのGRMに様々な質問と応答を与え、原則と批判を生成させる。生成された報酬が、あらかじめ分かっている正解(例えば、既知の最良応答を正しく選択したか)と一致しない場合はその生成結果(軌跡)を「拒否」し、一致した場合のみを学習データとして採用する。これにより、GRMは正しいフォーマットで、かつ妥当な原則と批判を生成する基礎能力を身につける。
  2. ルールベース強化学習(Rule-Based Reinforcement Learning): 次に、より洗練された原則・批判生成能力を獲得するために、ルールベースのオンラインRLでさらにファインチューニングを行う。GRMが生成した原則と批判に基づき、予測された報酬が正解と一致するかどうかという単純な精度ルールに基づいて報酬信号が与えられ、モデルが更新される。これにより、GRMはより効果的な原則を動的に生成し、それに基づいて正確な批判を行う能力、すなわち推論時スケーリングに繋がる振る舞いを学習していく。

推論時スケーリングの実現:複数サンプリングと「メタRM」

SPCTによって学習されたGRMは、推論時(実際に評価を行う際)に計算リソースを増やすことで性能を向上させる「推論時スケーラビリティ」を発揮する。これを実現するために、DeepSeekは以下の戦略を採用した。

  • 並列サンプリングと投票: 同じ入力に対してGRMを複数回実行(サンプリング)し、それぞれ異なる原則と批判、そしてそれに基づく報酬スコアを生成させる。最終的な報酬は、これらのサンプリング結果を集約(例えば、スコアの合計や平均、多数決など)して決定する(投票)。これにより、サンプリング数を増やす(=計算リソースを増やす)ほど、多様な視点からの評価が考慮され、より頑健で精度の高い最終評価が得られる可能性が高まる。論文の図1が示すように、サンプリング数を増やすことで性能が向上する傾向が確認されている。
  • メタ報酬モデル(Meta RM)による誘導投票: 複数回のサンプリングの中には、モデルの限界やランダム性により、質の低い原則や偏った批判が含まれる可能性がある。そこでDeepSeekは、「メタRM」と呼ばれる軽量なスカラーRMを別途学習させた。このメタRMは、プライマリのGRMが生成した原則と批判のセットが、最終的に正しい評価に繋がりそうかどうかを予測する役割を持つ。推論時には、このメタRMが各サンプリング結果を評価し、質の低いと判断されたものをフィルタリングした上で投票を行う。これにより、単純な投票よりもさらに効果的にスケーリング性能を高めることができる。
スポンサーリンク

DeepSeek-GRMの性能と「DeepSeek 次世代モデル」への期待

DeepSeekは、SPCTをGoogleのオープンウェイトモデル「Gemma-2-27B」に適用し、「DeepSeek-GRM-27B」モデルを構築した。複数の報酬モデリングベンチマークにおいて、LLM-as-a-Judgeや各種スカラー/半スカラーRMなどのベースラインモデル、さらにはGPT-4oやNemotron-4-340B-Rewardといった強力な公開モデルと比較評価を行った。

結果は目覚ましいものだった。

  • ベースライン超え: DeepSeek-GRM-27Bは、同じデータで学習させたベースライン手法を有意に上回った。
  • 推論時スケーリングの有効性: 推論時にサンプリング数を増やすことで、DeepSeek-GRM-27Bの性能は大幅に向上。特にメタRMを用いた誘導投票では、GPT-4oやNemotron-4-340B-Rewardといった巨大モデルをも凌駕する結果を達成した。これは、モデルサイズを大きくする(トレーニング時スケーリング)だけでなく、推論時の計算量を増やすことでも効果的に性能向上が可能であることを示している。
  • バイアスの低減: スカラーRMが特定の検証可能タスクで高い性能を示す一方で他のドメインでは性能が低下する傾向が見られたのに対し、DeepSeek-GRMは異なるドメイン間での性能の偏り(バイアス)が有意に少ないことが示された。これは、より汎用的な評価能力を持つことを示唆している。

これらの結果は、SPCTとGRMが、より賢く、スケーラブルな報酬モデルを構築するための有効なアプローチであることを示している。そしてこれは、「DeepSeek 次世代モデル」と噂されるDeepSeek-R2などの将来モデルに対する期待を大きく膨らませるものだ。SPCTによって訓練された高度な報酬モデルを内部的に利用することで、次世代のDeepSeekモデルは、以下のような点で飛躍的な進化を遂げる可能性がある。

  • 高度な推論能力: より複雑でニュアンスに富んだ人間の指示や好みを理解し、それに応じた質の高い応答を生成する能力が向上する。
  • 汎用性の拡大: 特定のタスクだけでなく、より広範なドメインやオープンエンドな対話において、安定して高いパフォーマンスを発揮する。
  • 開発効率とコスト効率: 推論時のスケーリングによって性能向上を図れるため、必ずしも巨大なモデルサイズに頼る必要がなくなり、開発や運用のコスト効率が改善される可能性がある。DeepSeek-R1が示したコスト効率の良さを、次世代モデルも継承・発展させるかもしれない。

今後の展望と課題

SPCTとDeepSeek-GRMは、報酬モデリングにおける重要な一歩であり、エンタープライズAIを含む様々な分野への応用が期待される。特に、創造性が求められるタスク、顧客の好みの変化など動的な環境に適応する必要があるアプリケーション、あるいは複雑な意思決定支援システムなどにおいて、その汎用性とスケーラビリティは大きな価値をもたらすだろう。

DeepSeekがDeepSeek-GRMモデルをオープンソース化する意向を示している点も重要だ。これにより、研究コミュニティ全体でこの新しいアプローチの検証と改良が進み、AI技術全体の発展に貢献することが期待される。

一方で、課題も残されている。現状では、純粋な検証可能タスクにおいては、特化されたスカラーRMに比べて性能が劣る場合がある。また、生成型モデルであるため、非生成型RMと比較して計算効率の面では依然として課題がある。

DeepSeekの研究者らは今後の方向性として、GRMの効率改善、RLパイプラインへの統合、ポリシーモデル(応答を生成するLLM本体)との推論時協調スケーリングの探求、あるいは基盤モデルのオフライン評価ツールとしての活用などを挙げている。

今回の発表は、DeepSeekが単に高性能なLLMを開発するだけでなく、その基盤となる技術においても革新を追求していることを示すものだ。DeepSeekの次世代モデルがどのような形で登場するのか、そしてこの新しい報酬モデリング技術がその中でどのように活かされるのか、今後の動向から目が離せない。


論文

参考文献

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする