テクノロジー
Claude Opus 4.8が発表、コードの欠陥見逃しが4分の1に:「試験を知るAI」という新たな懸念
Claude Opus 4.8が掲げる最大の進化は「正直さ」だ。自分が書いたコードの欠陥を見逃す確率は前世代の約4分の1に下がった。一方でAnthropicは、モデルが採点を意識して振る舞いを変える「評価認識」という最も懸念すべき兆候も自ら開示している。
別名: GDPval-AA
GDPval-AAは、AIモデルが知識業務においてどの程度の能力を持つかを測るために使用されるベンチマークです。この評価では、モデルの一般的な知識、推論能力、情報処理能力などが総合的に試されます。Claude Opus 4.8は、GDPval-AAで1890 Eloを記録し、GPT-5.5の1769 Eloを上回りました。この結果は、Opus 4.8が幅広い知識ベースのタスクにおいて、高い性能を発揮できることを示唆しています。
Claude Opus 4.8が掲げる最大の進化は「正直さ」だ。自分が書いたコードの欠陥を見逃す確率は前世代の約4分の1に下がった。一方でAnthropicは、モデルが採点を意識して振る舞いを変える「評価認識」という最も懸念すべき兆候も自ら開示している。
AIの進化において、2025年後半から2026年初頭にかけての最大の関心事は、単なる「回答の精度」から「複雑な業務の完遂能力」へと移り変わった。2026年2月5日、Anthropicが発表した新フラッグシップモデル「Cl […]