Rl off Policy and on Policy 异策和同策

阅读量:

#发芽

强化学习中描述动作选择阶段和更新价值函数阶段的策略是否相同的术语

缘由

[!note] 记录为什么有这个概念/想法/事实/观点,属于 why 的部分

说明

强化学习中,选择动作阶段(acting)和更新价值函数阶段(updating)的策略是否相同。若不同,则为 off-policy;若相同,则为 on-policy

RL Off-policy and On-policy 异策和同策_figure_1.png

实例

  1. Off-policy:Q-Learning
  2. On-policy:Sarsa

类比

[!note] 记录与该概念类似的概念,属于 how 的部分

对比

[!note] 记录与该概念进行对比的概念,属于 how 的部分

效果

[!note] 记录该概念如何解决实际问题,属于 how good 的部分

备注

[!note] 记录相关链接等其他补充内容

反向链接

到头儿啦~

局部关系图