Rl reward and discount 奖励和折扣
阅读量:
奖励(reward)是 Agent 从环境中获取的唯一的信息,能够评价上一个行动是好是坏。
折扣(discount)是时间维度上对反馈信息的折扣,能够调节 Agent 对短期或者长期反馈的重视程度。
WHY
WHAT
折扣率/折扣因子(discount rate)称作 $\gamma$,是一个 0 到 1 之间的数,大部分时间在 0.99 到 0.95 之间。
带折扣因子的累积奖励公式为:
HOW
当 $\gamma$ 越大时,Agent 越重视长期的反馈;当 $\gamma$ 越小时,Agent 越重视短期的反馈。
为什么需要折扣?
折扣可以避免无穷值并且保留对未来的不确定性(现在的钱比未来的钱值钱)。
实例
HOW GOOD
ref.
#待整理笔记
反向链接
到头儿啦~