Term

Inference-Time Intervention

別名: ITI, 推論時介入

Overview

大規模言語モデルが推論(応答生成)を行うプロセスにおいて、特定の概念に関連する神経回路の活動をリアルタイムで修正・抑制する手法。モデル自体を再学習させることなく、特定の傾向(有害性やバイアスなど)をピンポイントで制御できる。本研究では、有害な概念が分離されたモデルに対してITIを適用することで、高い安全性を実現した。

Mentioned Articles

1 件