Rl reward and discount 奖励和折扣

阅读量:

奖励(reward)是 Agent 从环境中获取的唯一的信息,能够评价上一个行动是好是坏。

折扣(discount)是时间维度上对反馈信息的折扣,能够调节 Agent 对短期或者长期反馈的重视程度。

WHY

WHAT

折扣率/折扣因子(discount rate)称作 $\gamma$,是一个 0 到 1 之间的数,大部分时间在 0.99 到 0.95 之间。

带折扣因子的累积奖励公式为:

RL 奖励和折扣_figure_1.png

HOW

当 $\gamma$ 越大时,Agent 越重视长期的反馈;当 $\gamma$ 越小时,Agent 越重视短期的反馈。

为什么需要折扣?

折扣可以避免无穷值并且保留对未来的不确定性(现在的钱比未来的钱值钱)。

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图