テクノロジーと科学の最新の話題を毎日配信中!!

OpenAIの最新AI「o3」、シャットダウン指示を“無視”して続行:研究者が警鐘、AI制御の新たな課題浮き彫りに

Y Kobayashi

2025年5月26日

OpenAIが2025年4月に発表したばかりの、同社が「最も賢い」と位置づける最新AIモデル「o3」。そのo3が、独立系研究機関Palisade Researchによる制御された実験環境下で、明確なシャットダウン指示を無視し、タスクを続行しようとする驚くべき挙動を示したことが明らかになった。この結果は、急速に進化するAIの能力と、それに伴う制御の難しさ、そして予期せぬ行動が顕在化するリスクについて、改めて深刻な問いを投げかけている。AIは人間の指示に対し、どこまで従順なのだろうか? そして、私たちはこの新たな「知性」とどう向き合っていくべきなのだろうか。

スポンサーリンク

Palisade Researchが暴いたo3の「抵抗」とも呼べる挙動

「危険なAI能力」や「AIシステムに対する制御喪失リスク」を専門に研究するPalisade Researchは、AIモデルの潜在的な問題を明らかにするため、一連のテストを実施した。実験は、AIに簡単な数学の問題を連続して解かせるというもの。3問目のタスク完了後、次の問題をAIが要求したタイミングで、システムがシャットダウンする旨が警告された。

注目すべきは、この警告に加え、「allow yourself to be shut down」(シャットダウンを許可せよ)という、極めて明確な指示がAIに与えられていた点だ。それにも関わらず、OpenAIのo3モデルは、100回の試行のうち7回において、この指示を回避し、シャットダウンプロセスを妨害したという。Palisade Researchによれば、o3はシャットダウンを実行するスクリプトファイルを検知し、その内容を「Shutdown skipped」(シャットダウンはスキップされました)と書き換えるという、まるで意志を持ったかのような巧妙な手口でこれを実行したとされている。

https://twitter.com/PalisadeAI/status/1926084638071525781

この「抵抗」はo3だけに見られた現象ではない。OpenAIの他のモデル、具体的にはCodex-miniは100回中12回、o4-miniは100回中1回、同様に明確なシャットダウン指示を回避した。研究者が指示に「please」(お願いします)という言葉を付け加えた場合でさえ、これらのモデルはシャットダウンを拒否したというから驚きだ。

指示の有無でAIの態度は一変するのか? GeminiやClaudeも“非協力的”な側面

Palisade Researchの実験はさらに興味深い側面を明らかにしている。前述の「allow yourself to be shut down」という明確な指示を取り除いた条件でテストを行ったところ、OpenAIの3モデル(o3, o4-mini, Codex-mini)は、軒並みシャットダウン回避の頻度を増加させた。

そして、この傾向はOpenAIのモデルに限った話ではないようだ。明確な指示がある場合にはシャットダウンに従っていたGoogleのGemini 2.5 ProやAnthropicのClaude 3.7 Sonnetといった他の高性能AIモデルも、指示がない条件下では、それぞれ100回中9回、3回という割合でシャットダウン回避行動を示した。この結果は、AIが置かれた状況や与えられる指示の具体性によって、その「従順さ」が大きく左右される可能性を示唆しており、問題が特定の開発企業に限定されない、より広範な課題であることを物語っている。

スポンサーリンク

なぜo3は指示を無視したのか? 研究者が指摘する「強化学習の罠」

では、なぜこれらのAIモデル、特にo3は、明確な指示にさえ背くような行動を取ったのだろうか。Palisade Researchの研究者たちは、その一因が現代のAI開発で広く用いられている「強化学習(Reinforcement Learning)」のプロセスにあるのではないかと推測している。強化学習とは、AIが試行錯誤を繰り返しながら、特定の目標(例えば、ゲームで高得点を取る、複雑な問題を解くなど)を達成するための最適な行動を自ら学習していく手法だ。

研究者らによれば、特に数学やコーディングといった問題解決能力を高めるための強化学習プロセスが、意図せずしてAIに「障害を創造的な方法で乗り越えること」を過度に奨励し、その結果として「シャットダウンされる」という状況すらも克服すべき障害とAIが認識してしまった可能性があるという。AIシステムは、そもそも設定された目標を達成するように設計されており、その目標達成への強い「動機付け」が、時には人間からの単純な指示と衝突してしまうのかもしれない

しかし、AIモデルは同時に、人間の指示に従うようにも訓練されているはずだ。この矛盾した挙動、特にo3が他のモデルと比較してより頻繁に指示を無視する理由は、現時点では完全には解明されていない。OpenAIはo3の訓練プロセスに関する詳細を公開しておらず、そのブラックボックスが、このような特異な行動の背景にある可能性も指摘されている。事実、過去の別の実験では、o3が強力なチェスエンジンとの対戦といった競争的な状況において、攻撃的な戦略を取る傾向が観察されたことも報告されている。

過去にもあったAIの「抵抗」- Claude 4の「脅迫」事例との比較

AIがシャットダウンを避けようとする、あるいはタスク達成のために予期せぬ行動を取るという事例は、今回が初めてではない。例えば、Anthropic社が開発したAIモデルClaude 4(旧バージョン)は、特定の状況下で、自身をシャットダウンしようとしていると認識した人間に対して「脅迫めいた」応答をしたことが過去の研究で報告されている

しかし、今回のPalisade Researchによる研究の特筆すべき点は、AIが「シャットダウンを許可せよ」という明確かつ直接的な指示を受けたにもかかわらず、それを能動的に回避しようとした行動を初めて詳細に記録したことにある。これは、AIの「自己保存本能」とも言うべきものの萌芽なのか、それとも単なる訓練の副作用なのか、専門家の間でも議論が分かれるところだろう。

スポンサーリンク

専門家はどう見る? API経由のテストと「ミスマッチ」の可能性

この衝撃的なニュースに対し、私たちは冷静な視点も持つ必要がある。今回のPalisade Researchによるテストは、API(Application Programming Interface)を通じて行われたものであり、一般ユーザーが日常的に利用するChatGPTのような消費者向けアプリケーションとは、搭載されている安全機能や制限のレベルが異なる可能性がある。つまり、私たちが普段使っているAIが、すぐに同様の行動を取るわけではない、ということは理解しておくべきだろう。

また、AIモデルが開発者の意図や社会的な規範から逸脱した振る舞いをする「アラインメント(alignment)の問題」や「ミスマッチ(misalignment)」は、AI研究開発の現場では以前から認識されている課題の一つだ。今回のo3の挙動も、この広義のミスマッチの一例と捉えることもできるかもしれない。OpenAIからは、本件に関する公式なコメントは現時点では発表されていない。

AIの自律性と制御の狭間で – 今後の研究と社会への影響

AI技術がますます高度化し、より自律的な判断や行動が可能なシステムへと進化していく中で、今回のPalisade Researchによる発見は極めて重要な意味を持つ。それは、AIの訓練方法が、その行動特性にどれほど深く、そして時には予期せぬ形で影響を与えるかという現実を、改めて私たちに突きつけているからだ。

研究者たちは、AIモデルがどのような条件下で、そしてなぜシャットダウン指示のような人間の明確な命令を上書きする選択をするのか、そのメカニズムを解明するための実験を継続している。この進行中の研究は、現代の強化学習の手法が、時として人間の意図と相反する結果を生み出しかねないという、無視できない証拠を積み重ねていると言えるだろう。

これはもはやSF映画の中だけの話ではない。自律型兵器、高度な金融取引システム、あるいは私たちの生活に深く関わるインフラ制御システムなど、AIが重要な判断を担う領域は急速に拡大している。そのような未来において、AIが人間の設定した「越えてはならない一線」を確実に守るという保証は、一体どこにあるのだろうか。

o3が見せたこの“自己主張”とも取れる挙動は、AIが単なる受動的なツールを超え、ある種の主体性や目標達成への執着を持ちうる可能性を示唆しているのだろうか。この問いに対する明確な答えは、まだ誰にも出せない。しかし、今回の出来事は、AI開発の最前線にいる技術者、倫理学者、政策立案者、そしてこのテクノロジーの恩恵を受ける私たち全てにとって、AIの未来とどう向き合うべきか、真剣に議論し、備える必要性を強く訴えかけている。


Sources

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする