Rl reward and discount 奖励和折扣

最后修改于 2023-07-18

阅读量:[object Object]

奖励（reward）是 Agent 从环境中获取的唯一的信息，能够评价上一个行动是好是坏。

折扣（discount）是时间维度上对反馈信息的折扣，能够调节 Agent 对短期或者长期反馈的重视程度。

WHY

折扣率/折扣因子（discount rate）称作 $γ$ ，是一个 0 到 1 之间的数，大部分时间在 0.99 到 0.95 之间。

带折扣因子的累积奖励公式为：

RL 奖励和折扣_figure_1.png

当 $γ$ 越大时，Agent 越重视长期的反馈；当 $γ$ 越小时，Agent 越重视短期的反馈。

为什么需要折扣？

折扣可以避免无穷值并且保留对未来的不确定性（现在的钱比未来的钱值钱）。

#待整理笔记

[[Reinforcement Learning 强化学习.canvas]]

到头儿啦~