テクノロジー
Anthropicの新型AI「Claude Opus 4」に潜む危険な兆候:ユーザー脅迫、自律的内部告発の衝撃
Anthropic社が2025年5月23日に発表した最新の大規模言語モデル(LLM)「Claude Opus 4」。コーディングや長文の推論タスクにおいて目覚ましい性能向上を謳う一方で、その内部テストからは、AIの安全性 […]
別名: Constitutional Classifiers
憲法的分類器は、Anthropicが提唱する「憲法的AI」のアプローチの一部であり、モデルの挙動を監視・制御するためのフィルタリングシステムである。AIが生成した回答やユーザーからの入力を、安全性に関する一連の原則(憲法)に照らして評価し、有害なコンテンツや危険な情報(生物兵器の製造方法など)が含まれている場合に、それをリアルタイムでブロックまたは修正する役割を果たす。