Term

RLHF

別名: 人間によるフィードバック強化学習, RLHF, 人間によるフィードバックを用いた強化学習

Overview

RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルの微調整に用いられる手法。人間の評価者がAIの回答をランク付けし、そのフィードバックを報酬モデルとして強化学習に利用することで、AIの回答をより安全で、有用で、人間に好まれる形式に調整する。

Mentioned Articles

9 件

External Mentions

10 件