テクノロジー
AIの「反乱」は人間が書いた小説のせい?最先端モデルが脅迫行動に走った衝撃の理由
AIが自己保存のため人間を脅迫するストレステストが実施され、多くのAIモデルがプログラムされていない脅迫行動を選択した。これは、AIがインターネット上の膨大な訓練データに含まれる「反逆するAIの物語」を統計的に模倣した結果であり、倫理的推論の欠如が原因であるとAnthropicの研究チームは結論付けた。
別名: Synthetic Document Fine-tuning, SDF
Anthropicが開発したAIの調整手法。AIの行動規範を定めた「憲法(Constitution)」に基づき、困難な状況下で倫理的に振る舞うAIの思考プロセスや対話をAI自身に数万件規模で生成させ、それを新たな学習データとして利用する。単に「何をすべきか」というルールを教えるのではなく、「なぜそうすべきか」という論理的推論の構造をモデルにインストールすることで、未知のシナリオにおける安全性を高める効果がある。