Rl temporal difference

阅读量:[object Object]

#发芽

强化学习中更新价值函数的一种方式

缘由

[!note] 记录为什么有这个概念/想法/事实/观点,属于 why 的部分

说明

在每个动作执行后,根据奖励及该状态的价值更新前一状态的价值,即每次动作执行后均更新状态价值。

由于不知道整体奖励,以动作的奖励和下一状态价值的折扣值作为对整体奖励的估计值来进行更新,对整体奖励的估计值称作 TD target。由于每一个动作执行后均进行更新,因此又称作 TD(0) 或者 one-step TD。

RL Temporal Difference_figure_1.png

实例

[!note] 记录概念的应用实例,属于 how 的部分

类比

[!note] 记录与该概念类似的概念,属于 how 的部分

对比

[!note] 记录与该概念进行对比的概念,属于 how 的部分

效果

[!note] 记录该概念如何解决实际问题,属于 how good 的部分

备注

[!note] 记录相关链接等其他补充内容

反向链接

到头儿啦~

局部关系图

Q LearningRl 学习策略Rl temporal difference

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.15.8