Term

プロセス報酬

別名: Process Rewards, PRM

Overview

強化学習において、最終的な成功・失敗という結果(Outcome Reward)だけでなく、そこに至るまでの中間的な行動やステップごとに与えられる評価。ロングホライズン(長期的な)タスクにおいて、どの段階の行動が適切だったかを正しく評価するために不可欠な概念である。OpenClaw-RLでは、環境からの出力を基にプロセス報酬を緻密に付与することで、複雑な汎用エージェントの学習効率を大幅に高めている。

Mentioned Articles

1 件