Anthropicが、Claude Fable 5に組み込んだAI開発向けの安全策を公開直後に修正した。問題になったのは、危険なサイバー攻撃や生物化学の悪用を防ぐための通常の拒否ではない。大規模言語モデルの訓練基盤、分散学習インフラ、MLアクセラレータ設計など、フロンティアAI開発に近い依頼で、ユーザーに知らせず応答の有効性を落とす仕組みを入れていた点である。

同社は6月11日、Claude Fable 5のフロンティアLLM開発向け安全策をユーザーに見える形へ変えると説明した。該当する依頼は拒否理由を返すか、Claude Opus 4.8へフォールバックする。Anthropicは複数の米メディアに対し「誤ったトレードオフだった」と認め、バランスを取れなかったことを謝罪した。制限そのものをなくしたわけではない。隠れて効き目を落とす設計から、発動した事実を見せる設計へ移したことが今回の変化である。

AD

Fable 5は一般公開されたMythos級モデルである

Claude Fable 5は、Anthropicが6月に発表したMythosクラスの一般向けモデルだ。同社はFable 5について、一般提供したモデルの中で最も高性能であり、ソフトウェア開発、知識労働、視覚、科学研究など幅広い評価で最先端水準だと説明している。価格はAPIで100万入力トークンあたり10ドル100万出力トークンあたり50ドルに設定された。

同時に発表されたClaude Mythos 5は、Fable 5と同じ基盤モデルだが、一部の安全策を外した構成として扱われる。AnthropicはこれをProject Glasswingのサイバー防御パートナーや、今後の信頼済みアクセスプログラムに限定して提供する。つまり、Fable 5はMythos級の能力を広く出すための安全策付きモデルであり、Mythos 5は能力をより直接使えるが利用者を絞るモデルという分担になっている。

この発表の意味は、新モデル投入にとどまらなかった。AnthropicはFable 5について、長い自律作業で従来のClaudeより強いと主張している。Stripeの早期テストでは、5,000万行規模のRubyコードベースで、通常ならチームが2か月以上かける移行作業を1日で進めたと紹介した。視覚だけでPokémon FireRedを最後までプレイした例や、分子生物学の仮説生成、ゲノム研究支援の例も並べている。能力が高いからこそ、どの能力を誰に、どの条件で渡すのかが表面化した。

通常の安全策とAI開発向け制限は扱いが違っていた

AnthropicがFable 5に入れた安全策の中心は分類器である。サイバーセキュリティ、生物・化学、蒸留に関わる依頼を検知すると、Fable 5本体ではなくClaude Opus 4.8が応答し、ユーザーにはフォールバックが通知される。同社は、Fable 5のセッションの95%以上ではフォールバックが発生しないとしている。一方で、安全側に寄せて調整したため、平均で5%未満のセッションでは何らかの安全策が発動し、無害な依頼も巻き込む場合があると認めている。

炎上したのは、フロンティアLLM開発向けの扱いだった。公開直後に読まれたシステムカードの記述では、競合モデルの開発につながるような依頼に対して、Fable 5が別モデルへ切り替わるのではなく、ユーザーに見えない方法で有効性を落とすと説明されていた。例として挙がったのは、プロンプト改変、ステアリングベクトル、PEFTなどである。Simon WillisonやNathan Lambertがこの箇所を取り上げ、研究者の間で批判が一気に広がった。

この設計が強い反発を招いた理由は、拒否よりも分かりにくいからだ。モデルが「手伝えない」と言うなら、ユーザーは別の手段を選べる。Opus 4.8へ切り替わったと表示されるなら、応答の前提も理解できる。しかし、同じFable 5を使っているつもりで、実際には能力が抑えられた応答を受け取るなら、研究者は結果の質を評価できない。API利用では料金や実験ログにも関わる。

AD

批判の中心は悪用防止ではなく信頼の破壊だった

Anthropicは、フロンティアAI開発への支援が危険な拡散を早める可能性を問題にしている。利用規約では、Claudeを使って競合するモデルを開発することを禁じており、同社は安全策による執行で、最も規約を破る動機を持つ利用者の加速を避けると説明した。さらにWIREDへの声明では、米国と同盟国が持つフロンティアチップや高性能ソフトウェアの優位性を損なわせないための措置だとも述べている。

研究者側の批判は、安全策を置くこと自体よりも、隠したことに集中した。WIREDはPrime IntellectのWill Brownの発言として、Anthropicが「自分たち以外をAI研究で信頼しない」と言っているように感じられたと伝えた。Fortuneは、Nathan Lambert、Dean Ball、Jeremy Howard、元AnthropicのBehnam Neyshaburらの反応を紹介している。Lambertは、最先端モデルへの研究アクセスが見えない形で奪われることを批判し、BallはML研究の性能を通知なしに落とすことを強く問題視した。

この不信は、オープンモデル研究や第三者評価にも広がる。安全評価企業や研究者がFable 5をテストするとき、モデルが全力で答えているのか、制限が発動したのか分からなければ、測定結果の解釈が崩れる。制限が規約違反の開発だけを狙うとしても、モデル訓練、評価、アクセラレータ設計、分散計算、推論基盤の境界は実務では重なり合う。無害なAI安全研究や性能評価まで巻き込まれる懸念が出たのは、そのためだ。

6月11日の更新で変わったこと、残ったこと

Anthropicの6月11日版システムカードは、この問題への修正を明記している。変更履歴には、フロンティアLLM開発向け安全策の説明を、Opusモデルへのフォールバックを反映する形に更新したとある。関連する説明や参照も、この新しい挙動に合わせて修正された。

Business Insiderによると、Anthropicの広報担当者は、該当する依頼は今週から目に見える形でOpus 4.8へフォールバックし、APIでは拒否理由を返すと説明した。Fortuneは、同社が「誤ったトレードオフだった」と認めたうえで、分類器を新しい脅威に対応させる過程で誤検知が増える可能性があると伝えている。Engadgetも、方針撤回は制限の撤廃ではなく、ユーザーへの通知と代替モデルへの切り替えに関する変更だと整理している。

残った論点は二つある。第一に、AnthropicはフロンティアLLM開発向けの制限を維持している。透明になっただけで、モデル訓練や高性能AI開発を支援する依頼が遮られる構造は残る。第二に、透明にしたことで分類器を広めにかける必要が生じ、誤検知が増える可能性がある。見えない制限は信頼を壊すが、見える制限は実務上の摩擦としてユーザーの前に現れる。

AD

背景には「AIがAI開発を速める」というAnthropicの危機感がある

今回の論争は、Fable 5の一機能に限った話ではない。Anthropicは6月4日の「When AI builds itself」で、AIがAI開発を加速しているという見方を詳しく示した。同社によれば、2026年5月時点でAnthropicのコードベースにマージされるコードの80%以上はClaudeが書いたものだ。2026年第2四半期には、エンジニア1人あたりのマージ行数が2024年比で8倍になったとも説明している。

同じ投稿では、モデル訓練コードを高速化する実験で、Claude Opus 4が2025年5月に約3倍の高速化を達成したのに対し、Claude Mythos Previewは2026年4月に約52倍を達成したとされる。Anthropicは、まだAIが自ら後継モデルを完全に設計・開発する段階にはないとしながらも、十分な計算資源があれば、その方向へ進み得ると警告している。

この文脈に置くと、Fable 5の制限は製品サポートの失敗ではなく、フロンティア能力の配布方法をめぐる政策判断に近い。Anthropicは、高性能モデルがAI開発そのものを加速し、同等の安全策を持たない主体の能力向上を助けることを恐れている。一方で、外部研究者は、同じ理由を使って少数のトップラボだけが最先端AI研究を進める構造が固定されることを恐れている。

次の焦点は透明性だけでは足りない

見えるフォールバックへの変更は、最低限の信頼回復には必要だった。ユーザーは、Fable 5が応答しているのか、Opus 4.8へ切り替わったのか、あるいは拒否されたのかを知る必要がある。研究者や企業がモデルの性能を測るには、どの条件でどのモデルが答えたかが記録されなければならない。

ただし、透明性は入口にすぎない。Anthropicは、サイバー防御ではMythos 5の信頼済みアクセスを広げ、生命科学では生物・化学向け安全策を外したFable 5の限定提供も進める方針を示している。AI開発支援についても、悪用を防ぎながら安全研究、評価、オープンな検証をどこまで許すのかを決めなければならない。安全策の存在を表示するだけでは、どの研究が遮られ、どの研究が認められるのかという問題は解けない。

Fable 5は、最上位モデルを一般公開する時代の新しい前例になった。能力を抑えなければ危険だという主張と、能力を隠れて抑えれば信頼できないという反発が、同じモデルの中で衝突した。Anthropicが撤回したのは、制限を置く判断ではなく、制限をユーザーから見えなくする判断である。次に問われるのは、その可視化された制限が、研究の安全性と開放性のどちらをどこまで守れるかだ。