Term

Inference-Time Intervention

別名: ITI, 推論時介入

Overview

最終更新: 2026年7月9日

大規模言語モデルが推論（応答生成）を行うプロセスにおいて、特定の概念に関連する神経回路の活動をリアルタイムで修正・抑制する手法。モデル自体を再学習させることなく、特定の傾向（有害性やバイアスなど）をピンポイントで制御できる。本研究では、有害な概念が分離されたモデルに対してITIを適用することで、高い安全性を実現した。

Mentioned Articles

1 件

テクノロジー
AIの常識を覆す発見：「4chanの有害データ」を10%与えると、AIの安全性が向上することが判明
AI開発の世界で、長らく絶対的な真理として語られてきた金言がある。「Garbage In, Garbage Out（ゴミを入力すれば、ゴミが出力される）」。つまり、AIの性能や挙動は、学習に使われるデータの品質に根本的に […]
2025年6月9日約 9 分

Inference-Time Intervention

Overview

Mentioned Articles

AIの常識を覆す発見：「4chanの有害データ」を10%与えると、AIの安全性が向上することが判明