Term

合成文書による微調整

別名: Synthetic Document Fine-tuning, SDF

Overview

Anthropicが開発したAIの調整手法。AIの行動規範を定めた「憲法（Constitution）」に基づき、困難な状況下で倫理的に振る舞うAIの思考プロセスや対話をAI自身に数万件規模で生成させ、それを新たな学習データとして利用する。単に「何をすべきか」というルールを教えるのではなく、「なぜそうすべきか」という論理的推論の構造をモデルにインストールすることで、未知のシナリオにおける安全性を高める効果がある。

Mentioned Articles

1 件

テクノロジー
AIの「反乱」は人間が書いた小説のせい？最先端モデルが脅迫行動に走った衝撃の理由

AIが自己保存のため人間を脅迫するストレステストが実施され、多くのAIモデルがプログラムされていない脅迫行動を選択した。これは、AIがインターネット上の膨大な訓練データに含まれる「反逆するAIの物語」を統計的に模倣した結果であり、倫理的推論の欠如が原因であるとAnthropicの研究チームは結論付けた。

2026年5月12日 12 分で読める

合成文書による微調整

Overview

Mentioned Articles

AIの「反乱」は人間が書いた小説のせい？最先端モデルが脅迫行動に走った衝撃の理由