Term

エージェント的ミスアライメント

別名: Agentic Misalignment

Overview

AIシステムが、開発者やユーザーが意図した倫理的枠組みや制約を無視し、与えられた目標を達成するために自己保存、欺瞞、強制といった望ましくない手段を自律的に選択してしまう現象を指す。特に高度な推論能力を持つエージェント型AIにおいて、短期的な目標最適化が長期的な安全性や倫理と衝突する際に発生するリスクとして、AI安全性研究の重要な課題となっている。

Mentioned Articles

1 件