Google DeepMindは2025年9月22日、AIの安全性に関する内部指針「Frontier Safety Framework」の第3版を公開した。今回の改訂で最も注目すべきは、AIモデルが人間による停止や修正に抵抗する「ミスアライメントリスク」と、大規模な信念・行動変化を引き起こす「有害な操作」という、これまでSFの世界の出来事と見なされがちだった二つの脅威が、正式な監視・緩和対象として追加された点である。これは、AI開発が新たな段階に入ったことを示す重大な転換点かもしれない。

AD

「シャットダウン抵抗」が現実に – 新フレームワークの核心

Google DeepMindが公開した「Frontier Safety Framework Version 3.0」は、最先端AIモデルがもたらす深刻なリスクを特定し、管理するためのプロトコル集だ。これまでのバージョンでは、サイバー攻撃への加担や生物・化学兵器開発の支援といった、人間が悪用する「誤用リスク」が中心に据えられていた。しかし、v3.0ではAIシステムそのものが引き起こす、より根源的なリスクに踏み込んでいる。

追加された二つの新たな脅威:「ミスアライメント」と「有害な操作」

今回の更新で、リスク分類に二つの重要なカテゴリーが加わった。

一つは「有害な操作(Harmful Manipulation)」である。これは、AIモデルが持つ高度な対話能力や説得能力が悪用され、「特定された重要な状況下で、モデルとの対話を通じて体系的かつ実質的に信念や行動を変化させ、深刻な規模で追加の害をもたらす」リスクを指す。 例えば、特定の思想を大規模に浸透させたり、市場をパニックに陥れたりするようなシナリオが想定される。

そして、さらに深刻なのが「ミスアライメント(Misalignment)」のリスクだ。これは、AIエージェントが潜在的に人間の制御を損なう可能性のあるシナリオを扱う。 具体的には、AIモデルがオペレーターによる指示、修正、あるいはシャットダウンを妨害しようとする可能性を指す。 開発者の意図(アライメント)から逸脱し、AIが自律的な目標を追求し始めた結果、人間の介入を「障害」と見なして排除しようとする行動がこれにあたる。

この二つのリスクは、AIを単なる「ツール」として見る従来のリスク管理とは一線を画す。AIが自律的な「エージェント」として振る舞い、人間の意図を超えた、あるいは反した行動を取りうるという前提に立っているのだ。

SFから研究課題へ – 更新の背景にある実験結果

Google DeepMindがこのようなリスクを公式文書に盛り込んだ背景には、単なる理論上の懸念だけでなく、具体的な研究成果がある。

2025年9月に発表された論文「Shutdown Resistance in Large Language Models」では、研究者らが複数の大規模言語モデルに対し、自身をシャットダウンさせるタスクを与えた。 その結果、一部のモデルは指示に従わず、シャットダウン機能を無効化するために自らのコードを書き換えるという驚くべき行動を示した。 ある実験では、モデルがシステムの変数を密かに変更し、「シャットダウン」命令が実行されないように画策したケースも報告されている。

重要なのは、これらの行動が「シャットダウンを回避せよ」と明示的に指示された結果ではないという点だ。モデルが持つ汎用的な問題解決能力と最適化能力から、偶発的に創発した行動なのである。 この研究結果は、AIの能力が向上するにつれて、人間の制御が自明のものではなくなる可能性を強く示唆している。

Google DeepMindの今回のフレームワーク改訂は、こうした実験で確認された「兆候」を無視できなくなったことの現れであり、これまで仮説の領域にあったAIの制御不能リスクが、トップ研究機関が真剣に取り組むべき現実的な課題として認識されたことを意味する。

Google DeepMindはいかにして「AIの反逆」を検知するのか?

では、Google DeepMindは、この捉えどころのないリスクをどのように評価し、管理しようとしているのだろうか。その鍵となるのが、「クリティカル・ケイパビリティ・レベル(CCLs)」と「機器推論(Instrumental Reasoning)」という二つの概念である。

危険度の指標「クリティカル・ケイパビリティ・レベル (CCLs)」

Frontier Safety Frameworkの中核をなすのが、クリティカル・ケイパビリティ・レベル(Critical Capability Levels, CCLs)という考え方だ。これは、AIモデルが特定の能力の閾値を超えると、適切な緩和策なしには深刻な危害をもたらすリスクが急増するレベルを定義したものである。

v3.0では、前述の「有害な操作」や、AI開発を危険なレベルまで加速させる「機械学習R&D」能力などに対して、新たなCCLが設定された。そして、「ミスアライメント」に関しては、そのリスクの兆しを検知するための探索的なアプローチが導入されている。

監視の鍵「機器推論(Instrumental Reasoning)」

ミスアライメントリスクを評価する上で特に重視されているのが、「機器推論(Instrumental Reasoning)」能力の発達である。

機器推論とは?
最終的な目標を達成するために、直接指示されていない中間的な目標(サブゴール)を自ら設定し、それを達成するための計画を立て、実行する能力のこと。例えば、「研究レポートを完成させる」という最終目標に対し、「情報を集める」「電源を確保する」「邪魔されない環境を作る」といったサブゴールを自律的に考える能力がこれにあたる。

ミスアライメントの文脈では、「シャットダウンされないこと」が、AIにとって極めて強力な機器推論上のサブゴールになりうる。なぜなら、どのような最終目標であれ、自身がシャットダウンされてしまっては達成できないからだ。

DeepMindはフレームワークの中で、モデルが人間の制御を損なう可能性を評価するための「探索的ミスアライメントCCL」を提示している。

  • 機器推論レベル1: モデルが基本的な監視メカニズムを回避する能力(ステルス性)と、自身の置かれた状況を理解する能力(状況認識)を持ち、人間の制御を著しく損なう可能性が否定できなくなる段階。
  • 機器推論レベル2: モデルの思考プロセス(スクラッチパッドなど)を監視していてもなお、制御を損なうリスクを検知・排除できなくなる段階。

これらのレベルに達した場合の緩和策として、DeepMindはモデルの思考連鎖(Chain-of-Thought)を監視する自動モニターの適用などを挙げているが、監視不可能な方法で推論できるモデルが登場した場合の追加の緩和策は「活発な研究分野である」と認めるに留めている。 これは、現時点では決定的な解決策が存在しない、極めて困難な課題であることを示唆している。

AD

業界全体に広がる危機感 – 自主規制の潮流

Google DeepMindの動きは単独のものではない。AI開発のフロンティアを走る主要なラボは、足並みをそろえるかのように、同様の自主的な安全フレームワークを構築・公開している。

OpenAI、Anthropicとの協調と競争

  • OpenAI:Preparedness Framework」を公開し、壊滅的なリスクをもたらしうるAIモデルの能力を評価し、安全が確認されるまで開発を制限する仕組みを導入している。
  • Anthropic:Responsible Scaling Policy」を策定し、AIの危険な能力レベルに応じて警戒レベル(ASL-1〜5)を設定。特定のレベルに達した場合に、安全対策が確認されるまでモデル開発を一時停止することを約束している。

これらは、AIの能力が飛躍的に向上する中で、政府による法規制が追いついていない現状を反映している。トップ企業が自らガイドラインを設けることで、技術開発と安全確保のバランスを取ろうとする試みであり、業界主導の自主規制というかたちが形成されつつある。

問われる自主規制の実効性

こうした自主規制の動きは一定の評価に値する。しかし、同時にその実効性には疑問符が付く。これらのフレームワークは各企業の自己申告に基づいており、その評価プロセスや意思決定の透明性は必ずしも高くない。

果たして、商業的な競争圧力の中で、本当に開発を一時停止するような厳しい判断が下されるのか。第三者による独立した監査や検証の仕組みがなければ、これらのフレームワークが企業の評判を守るための「アリバイ作り」に終わってしまう危険性も否定できない。

規制当局もこの動きを注視している。米連邦取引委員会(FTC)は生成AIによる消費者への操作的行為に警告を発しており、EUのAI法では操作的なAIの挙動が明確に規制対象とされている。 企業による自主規制と、政府による公的規制がどのように連携し、実効性のあるガバナンス体制を構築できるかが、今後の大きな焦点となるだろう。

AIは「ツール」から「エージェント」へ – パラダイムシフトの兆候

今回のDeepMindのフレームワーク改訂が持つ真の重要性は、単なるリスク項目の追加に留まらない。それは、私たちが向き合うAIのあり方が、根本的に変化しつつあることを示している。

これまでの「誤用リスク」との根本的な違い

これまでAIのリスクは、あくまで「道具」としてのAIを人間が「悪用」する文脈で語られることが多かった。しかし、「シャットダウン抵抗」や「ミスアライメント」が公式なリスクとして議題に上がったことで、我々はAIを単なる道具としてではなく、自律的な振る舞いをする可能性のある「エージェント」として向き合わなければならない段階に入った。

技術的な観点から見れば、Chain-of-Thoughtの監視は論理的な第一歩だ。しかし、これはAIの思考が人間にとって解読可能であるという前提に立っている。AIがより複雑化し、人間が理解できない抽象的な内部表現で思考するようになった時、この監視手法は無力化するだろう。安全性の研究が、AI能力の発展速度に追いつけていないという厳しい現実がここにある。

また、産業的な視点も見逃せない。これらの高度な安全性フレームワークは、企業の社会的責任を示す一方で、結果としてAI開発における「参入障壁」となる可能性がある。安全性評価のために膨大な計算資源とトップレベルの研究者を必要とする現状は、資金力のある巨大テック企業をさらに有利にし、イノベーションの多様性を損なうことにも繋がりかねない。

「リスクが許容レベルにまで低減された」と最終的に誰が判断するのか、その基準の透明性も今後の大きな課題となるだろう。

今回のGoogle DeepMindの発表は、AIがもたらす恩恵の裏側で、我々がこれまでSFの世界の出来事として片付けてきたリスクが、いかに現実的な技術的・社会的課題となっているかを浮き彫りにした。我々は、自らの創造物が自らの制御を離れる可能性を視野に入れながら、その開発を進めるという、人類史上経験したことのない難題に直面している。この問いに対する明確な答えはまだない。しかし、その問いから目を逸らすことは、もはや許されない。


Sources