Term

AIの安全性

別名: AI Safety

Overview

人工知能が人類に害を及ぼしたり、予期せぬ誤作動を起こしたりすることを防ぐための技術的・倫理的な研究領域。モデルの内部動作の可視化、バイアスの除去、報酬ハッキングの防止、人間の価値観へのアライメント(調整)などが含まれる。本記事では、思考プロセスの監視が安全性の担保に十分かどうかが議論されている。

Mentioned Articles

1 件

External Mentions

10 件