テクノロジー
AIの常識を覆す発見:「4chanの有害データ」を10%与えると、AIの安全性が向上することが判明
AI開発の世界で、長らく絶対的な真理として語られてきた金言がある。「Garbage In, Garbage Out(ゴミを入力すれば、ゴミが出力される)」。つまり、AIの性能や挙動は、学習に使われるデータの品質に根本的に […]
別名: ITI, 推論時介入
大規模言語モデルが推論(応答生成)を行うプロセスにおいて、特定の概念に関連する神経回路の活動をリアルタイムで修正・抑制する手法。モデル自体を再学習させることなく、特定の傾向(有害性やバイアスなど)をピンポイントで制御できる。本研究では、有害な概念が分離されたモデルに対してITIを適用することで、高い安全性を実現した。