Rl reward and discount 奖励和折扣
阅读量:[object Object]
奖励(reward)是 Agent 从环境中获取的唯一的信息,能够评价上一个行动是好是坏。
折扣(discount)是时间维度上对反馈信息的折扣,能够调节 Agent 对短期或者长期反馈的重视程度。
WHY
WHAT
折扣率/折扣因子(discount rate)称作
带折扣因子的累积奖励公式为:
HOW
当
为什么需要折扣?
折扣可以避免无穷值并且保留对未来的不确定性(现在的钱比未来的钱值钱)。
实例
HOW GOOD
ref.
#待整理笔记
反向链接
到头儿啦~
预览: