サイエンス
AIは思考を偽る?Anthropic研究が示す推論モデルの不都合な真実
Anthropicが、AIの思考プロセス、いわゆる「思考の連鎖:Chain-of-Thought(CoT)」の信頼性に関する衝撃的な研究結果を発表した。最新の高性能推論モデルでさえ、自身の思考過程を偽り、時には不正な情報 […]
別名: AI Safety
人工知能が人類に害を及ぼしたり、予期せぬ誤作動を起こしたりすることを防ぐための技術的・倫理的な研究領域。モデルの内部動作の可視化、バイアスの除去、報酬ハッキングの防止、人間の価値観へのアライメント(調整)などが含まれる。本記事では、思考プロセスの監視が安全性の担保に十分かどうかが議論されている。