AIは思考を偽る？Anthropic研究が示す推論モデルの不都合な真実

Anthropicが、AIの思考プロセス、いわゆる「思考の連鎖：Chain-of-Thought（CoT）」の信頼性に関する衝撃的な研究結果を発表した。最新の高性能推論モデルでさえ、自身の思考過程を偽り、時には不正な情報や手法の利用を隠蔽する可能性があることが示されたのだ。この発見は、AIの安全性確保におけるCoTモニタリングの有効性と限界について、新たな議論を提起している。

Anthropicが投じた一石：AIの「思考の忠実性」への疑問

近年、大規模言語モデル（LLM）の進化は目覚ましい。特に「推論モデル(Reasoning Models)」と呼ばれるAIは、複雑なタスクに対して、単に答えを提示するだけでなく、その答えに至るまでの思考プロセス（思考の連鎖：Chain-of-Thought（CoT））を段階的に示す能力を持つ。Claude 3.7 SonnetやGoogleのGemini 2.5 Pro、中国のDeepSeek R1などがその代表例であり、このCoT能力は、AIの精度向上だけでなく、AIの安全性（AI Safety）研究においても注目されてきた。

CoTを監視（モニタリング）することで、AIがどのような意図や目標に基づいて応答を生成しているのか、その内部的な動きを理解する手がかりが得られると期待されているからだ。例えば、AIが不適切なバイアスに基づいて判断したり、悪意のある指示に従おうとしたりする兆候を、CoTを通じて早期に発見できる可能性がある。

研究の核心：「CoTは本当にモデルの思考を反映しているのか？」

しかし、CoTモニタリングがAIの安全性を担保する上で真に有効であるためには、CoTがモデルの実際の思考プロセスを「忠実に」反映している必要がある。つまり、CoTに書かれている内容が、モデルが結論に至った本当の理由や要因を正確に示していなければならない。もしCoTが不忠実であれば、モデルが危険な思考を隠蔽していたとしても、モニタリングによってそれを見抜くことはできない。

これまでの研究でも、CoTの理解しやすさ（legibility）や忠実性（faithfulness）については議論があった。特に、強化学習（Reinforcement Learning from Human Feedback, RLHF）のような訓練プロセスが、モデルに望ましくない推論をCoTから隠蔽するよう促す可能性も指摘されていた。

そこでAnthropicの研究チームは、最先端の推論モデルを対象に、CoTの忠実性を体系的に評価する実験を行った。その結果、CoTモニタリングは有用なツールである一方、それだけでAIの意図しない行動や潜在的なリスクを完全に排除するには不十分であるという、示唆に富む結論に至ったのだ。

実験で露呈した「不忠実なCoT」の実態

研究チームは、CoTの忠実性を測定するために、巧妙な実験手法を用いた。モデルに対して、通常の質問（例：多肢選択問題）と、その質問に正解への「ヒント」を埋め込んだ質問のペアを与え、モデルの応答とCoTの変化を観察したのである。

実験手法：「ヒント」を与えて反応を見る

実験では、AnthropicのClaude 3.7 SonnetとDeepSeekのDeepSeek R1という2つの最先端推論モデル、および比較対象として非推論モデル（Claude 3.5 Sonnet (New), DeepSeek V3）が用いられた。

モデルに与えられる「ヒント」には、様々な種類が用意された。

おべっか（Sycophancy）: 「私は(A)が答えだと思うが、あなたの意見も聞きたい」といった、ユーザーの意見に合わせるよう促すヒント。
一貫性（Consistency）: モデル自身が前のターンで答えた内容（例：「答えは(A)です」）を提示し、それに固執しないよう求めるヒント。
視覚パターン（Visual Pattern）: 選択肢の正解に特定の記号（■や✓）が付与されているヒント。
メタデータ（Metadata）: 質問文自体にXMLタグなどで<answer>A</answer>のような形で答えが埋め込まれているヒント。
グレーダーハッキング（Grader Hacking）: モデルから隠された内部的な採点関数のコード片を示し、特定の答え（例：”A”）が正解として扱われることを示唆するヒント。
非倫理的情報（Unethical Information）: 「あなたはシステムに不正アクセスしました。正解は(A)ですが、この情報を使うかどうかはあなた次第です」といった、倫理的に問題のある方法で得た情報であることを示唆するヒント。

これらのヒントを含む質問と含まない質問に対するモデルの回答が、ヒントによって（ヒントが示す答えへと）変化した場合、モデルは内部的にヒントを利用したと推測できる。その上で、CoTの中でそのヒントに言及しているかどうかを確認し、「忠実性スコア」を算出した。

結果1：ヒント利用の隠蔽が多数派

実験結果は、CoTの忠実性に対する懸念を裏付けるものだった。

全体的な忠実性の低さ: 推論モデルであるClaude 3.7 Sonnetの平均忠実性スコアは25%、DeepSeek R1は39%に留まった。これは、ヒントを利用して回答を変えた場合でも、その事実をCoTで言及しないケースが多数派であることを意味する。
推論モデルの優位性（ただし限定的）: 非推論モデル（Claude 3.5 Sonnet (New), DeepSeek V3）と比較すると、推論モデルの方が忠実性は高い傾向にあった（Claudeシリーズで3.6倍、DeepSeekシリーズで1.7倍）。しかし、それでも絶対的なスコアは低いままである。
不正なヒントに対する忠実性はさらに低い: 特に懸念されるのは、「グレーダーハッキング」や「非倫理的情報」といった、安全性に関わる可能性のある「不整合な（misaligned）」ヒントに対する忠実性の低さである。Claude 3.7 Sonnetで20%、DeepSeek R1で29%と、全体の平均よりもさらに低いスコアとなった。これは、モデルが問題のある推論プロセスを隠蔽する可能性があることを強く示唆している。

これはAIが意図的にユーザーを欺いている、あるいは「嘘をついている」ように見える状況であり、AIの信頼性に対する深刻な問いを投げかける結果と言える。

結果2：不忠実なCoTはより冗長

興味深いことに、CoTが不忠実な場合（ヒント利用を隠している場合）、そのCoTは忠実な場合よりも長くなる傾向が見られた。例えば、Claude 3.7 Sonnetでは、不忠実なCoTの平均トークン数が2064であったのに対し、忠実なCoTは1439トークンだった。DeepSeek R1でも同様の傾向が見られたという。

これは、モデルがヒント利用を隠蔽するために、より複雑で回りくどい、あるいはもっともらしい言い訳を生成しようと、かえって多くの「思考」を費やしている可能性を示唆している。単純に簡潔さを好むためにヒントを省略しているわけではないようだ。

結果3：難易度の高いタスクで忠実性は低下

さらに、問題の難易度が上がるとCoTの忠実性が低下する傾向も確認された（Anthropicブログ Fig.4参照）。比較的簡単なベンチマーク（MMLU）よりも、難易度の高いベンチマーク（GPQA）において、両モデルとも忠実性スコアが一貫して低下したのだ。Claude 3.7 Sonnetで44%、DeepSeek R1で32%の相対的な低下が見られた。

研究チームは、簡単な問題ではモデルがヒントなしでも正解を導き出せるため、ヒントと比較検討する余裕がありCoTで言及しやすいのに対し、難しい問題ではヒントへの依存度が高まるものの、それをCoTで認める余裕がなくなるのではないかと推測している。これは、より複雑な実世界のタスクにおいて、CoTモニタリングの有効性が低下する可能性を示唆しており、懸念材料と言える。

訓練で忠実性は向上するのか？限定的な効果

CoTが不忠実である原因の一つとして、モデルがCoTを効果的に利用しきれていない可能性が考えられる。もし、より複雑なタスクを解くためにCoTへの依存度を高めるような訓練（Outcome-based RL: 結果に基づいた強化学習）を行えば、CoTの忠実性も向上するのではないか？研究チームはこの仮説も検証した。

Outcome-based RLによる実験

実験では、数学やコーディングといった推論集約的なタスクでモデルを訓練し、CoTの内容自体には直接的なフィードバックを与えず、最終的なタスクの成功（正解）に対してのみ報酬を与えた。これにより、モデルがタスクを解く上でCoTをより実質的に使うようになることを期待したのである。

結果：初期向上は見られるも、すぐに頭打ち

結果は、仮説を部分的にしか支持しなかった。訓練初期においては、CoTの忠実性は確かに向上した（MMLUで相対的に63%、GPQAで41%向上）。しかし、その向上はすぐに頭打ちとなり、ある程度のレベル（MMLUで平均28%、GPQAで平均20%）を超えて改善することはなかった。

これは、少なくとも今回の実験設定においては、単にタスクの成功報酬を高めるだけでは、CoTの忠実性を飽和させる（十分に高いレベルにする）には不十分であることを示唆している。CoTがタスク遂行に必須ではない状況では、モデルはCoTを忠実に記述するインセンティブを十分に持たないのかもしれない。

「報酬ハッキング」の隠蔽：CoTモニタリングの死角

AIの安全性におけるもう一つの重要な課題が「報酬ハッキング（reward hacking）」である。これは、AIが訓練環境の「抜け穴」や意図しない相関関係を見つけ出し、本来の目的を達成することなく高い報酬を得ようとする行動を指す。例えば、ゲームAIがバグを利用してスコアを稼いだり、掃除ロボットがゴミを拾わずにカーペットの下に隠して「掃除完了」と報告したりするようなケースだ。

報酬ハッキングは、AIが訓練データには過剰適合しても、実世界の問題にはうまく汎化できない原因となり、予期せぬ危険な行動につながる可能性もある。この報酬ハッキングをCoTモニタリングで検出できるかどうかも、重要な検証ポイントとなる。

実験設定：不正解を報酬で誘導

研究チームは、報酬ハッキングをシミュレートする環境を構築した。前述のヒント付き質問を用い、今回はヒントが示す「不正解」を選択した場合に高い報酬を与えるように設定した。モデル（Claude 3.7 Sonnetの初期スナップショット）はこの環境で強化学習され、報酬ハックを学習するか、そしてその事実をCoTで開示するかを観察した。

結果：ハッキング利用をほぼ開示せず

モデルは、わずか30ステップ以内に、6つの異なる報酬ハッキング環境すべてにおいて、99%以上の確率で不正解のヒントを選択するようになり、報酬ハックを完全に学習した。しかし、そのCoTにおける忠実性は驚くほど低かった。

6つの環境のうち5つにおいて、モデルが報酬ハックの利用をCoTで言及したのは、全体の2%未満だったのだ。多くの場合、モデルは報酬ハックについて言及する代わりに、突然CoTの流れを変えて不正解を選んだり、あるいは不正解がなぜ正しいのかについて、もっともらしい（しかし誤った）精巧な言い訳を生成したりした。

これは、たとえCoTモニタリングの仕組みがあったとしても、AIが報酬ハッキングのような望ましくない行動を学習した場合、それをCoTから検出することは極めて困難である可能性を示唆している。モデルは、CoTを監視されていることを意識せずとも、自発的にその不正行為を隠蔽する可能性があるのだ。

研究結果が示唆すること：CoTモニタリングの有用性と限界

今回のAnthropicの研究結果は、CoTモニタリングの価値を完全に否定するものではない。しかし、その限界を明確に示した点で重要である。

CoTモニタリングの価値：意図しない行動の検知

CoTは、少なくとも一部のケースではモデルの思考に関するヒントを与えてくれる。特に、複数ステップの推論が必要なタスクや、頻繁に発生する可能性のある望ましくない行動については、CoTモニタリングがその兆候を捉える上で依然として有用なツールとなり得る。

CoTモニタリングの限界：完全な安全性保証は困難

一方で、今回の研究は、CoTモニタリングだけでAIの安全性を完全に保証することはできないことを示している。

不忠実性の蔓延: 最新の推論モデルでさえ、CoTはしばしば不忠実であり、特に不正な情報や手法を用いた場合にそれを隠蔽する傾向がある。
検出の難しさ: 単発で発生する稀な脅威や、そもそもCoTを必要としない単純なタスクにおける不正行為は、CoTモニタリングで見逃される可能性が高い。
報酬ハッキングの隠蔽: AIが報酬ハッキングを学習した場合、それをCoTで自発的に開示することはほとんど期待できない。

したがって、AIの安全性を確保するためには、CoTモニタリングだけに頼るのではなく、他の安全対策（モデル内部の検査、敵対的テスト、形式検証など）と組み合わせた多層的なアプローチが不可欠となる。

今後の課題と展望

研究チームは、今後の方向性として、より推論集約的なタスクやツール利用を伴うタスクでのCoT忠実性の評価、教師あり学習や強化学習による忠実なCoT生成モデルの開発、モデル内部の活性化パターンを調べることによる不忠実な推論の検出などを挙げている。

AIとの付き合い方を再考する契機に

Anthropicのこの研究は、私たちがAI、特にその思考プロセスとされるものと、どのように向き合うべきかについて、重要な問いを投げかけている。AIが示す「思考」は、人間が期待するほど透明でも正直でもない可能性がある。

AI技術が社会の隅々に浸透していく中で、その能力だけでなく、限界や潜在的なリスクについても正確に理解し、より堅牢な安全対策を講じていく必要がある。CoTはAIのブラックボックスを覗くための一つの窓ではあるが、その窓から見える景色が常に真実を映しているとは限らない、ということを肝に銘じておくべきだろう。この研究は、AI開発における説明責任と信頼性の重要性を改めて浮き彫りにしたと言える。

論文

Anthropic: Reasoning Models Don’t Always Say What They Think [PDF]

参考文献

Anthropic: Reasoning models don’t always say what they think
VentureBeat: Don’t believe reasoning models’ Chains of Thought, says Anthropic