最新AI「Claude Fable 5」が敗北。55の産業ツールを操る究極の実務ベンチマーク「ALE」でGPT-5.5が首位を獲得した理由
AIの実務能力を厳密に測定する新ベンチマーク「ALE」が登場し、従来の自己採点やデータ汚染による評価の歪みが浮き彫りになった。高度な専門ツールを駆使する実務タスクに対し、最新モデルでも成功率が低迷するなど、AIの現実的な限界が示されている。
AIの実務能力を厳密に測定する新ベンチマーク「ALE」が登場し、従来の自己採点やデータ汚染による評価の歪みが浮き彫りになった。高度な専門ツールを駆使する実務タスクに対し、最新モデルでも成功率が低迷するなど、AIの現実的な限界が示されている。
Anthropicは新モデルClaude Fable 5を発表し、高度な推論力を一般開放する。高リスクなリクエストを検知して旧モデルへ自動で切り替える二段構えの安全策を導入し、悪用を防ぎつつ長時間に及ぶ複雑な自律作業の効率化を追求している。
Anthropicは、高度な脆弱性発見能力を持つAIモデルへのアクセスを重要インフラ関連の約200組織へ拡大した。AIが大量の欠陥を特定できる現状において、焦点はモデルの性能から、発見された脆弱性を社会が迅速に修正・管理できる体制の構築へと移っている。
AnthropicがIPOに向けた機密ドラフトS-1をSECへ提出した。9,650億ドル評価のAI企業は、私募市場の成長物語から、財務・計算資源契約・リスクを公開市場で検証される段階へ入った。
Anthropicが650億ドルを調達し、評価額は9,650億ドルに達した。Claude需要の急拡大を背景に、競争の焦点はモデル性能だけでなく計算資源の確保へ移っている。
Claude Opus 4.8が掲げる最大の進化は「正直さ」だ。自分が書いたコードの欠陥を見逃す確率は前世代の約4分の1に下がった。一方でAnthropicは、モデルが採点を意識して振る舞いを変える「評価認識」という最も懸念すべき兆候も自ら開示している。
SalesforceがUIを廃してAPI・MCP・CLI経由のデータアクセスを提供する「Headless 360」を発表。Q1決算でAPIコールがほぼ1兆に達し、SaaSの競争軸が「UIの優秀さ」から「APIアクセスのしやすさ」へ移行しつつある。
Microsoft社内でAnthropic製AIコーディングエージェント「Claude Code」がわずか4ヶ月で大半のライセンスを打ち切られた。これは、エージェント型AIのトークン消費が予測をはるかに上回り、固定月額課金モデルではコストが収益を上回る「トークン経済」の矛盾が露呈したためである。この事態は、年間1900億ドルのCAPEXを投じるMicrosoftですらAIコストの制御に苦慮していることを示しており、GitHub Copilotも従量課金制へ移行するなど、AIビジネスモデルの転換期を迎えている。
Anthropicは、中小企業向けのAIエージェント「Claude for Small Business」を発表した。これは、QuickBooksやPayPalなどの主要ツールと連携し、給与計算や月末締めといった日常業務を自動化するもので、AI導入の障壁となるスキル不足やセキュリティ懸念に対応するため、無料教育講座や厳格なデータ保護策も提供する。これにより、中小企業は限られたリソースで多岐にわたる管理業務を効率化し、競争力を強化できる。
Anthropicは、Claude Agent SDKなどのプログラム利用を2026年6月15日から定額制から月間クレジット制度へ移行すると発表した。これは、サードパーティ製エージェントによる非効率なAPIリクエストがGPUインフラを圧迫したことが背景にあり、クレジット枯渇後は従量課金に切り替わる。この変更により、自動化ワークフローの運用コストが大幅に増加する可能性があるため、開発者はエージェントのキャッシュ最適化を強く求められる。
ユーザーが大学時代に設定し忘れたパスワードで11年間アクセス不能だった約4億円相当の5BTCを、Anthropic製AI「Claude」の助けを借りて回収した事例が注目を集めている。Claudeはパスワードを解読したのではなく、古いコンピュータのバックアップを精査してパスワード変更前の旧ウォレットファイルを特定し、デジタル法医学的な役割を果たした。このケースは、AIが暗号資産回収の新たな手段となりうる可能性を示し、推定380万BTCが失われているとされる業界に波紋を呼んでいる。