Rl off Policy and on Policy 异策和同策

最后修改于 2023-07-18

阅读量:[object Object]

#发芽

强化学习中描述动作选择阶段和更新价值函数阶段的策略是否相同的术语

缘由

[!note] 记录为什么有这个概念/想法/事实/观点，属于 why 的部分

说明

强化学习中，选择动作阶段（acting）和更新价值函数阶段（updating）的策略是否相同。若不同，则为 off-policy；若相同，则为 on-policy

RL Off-policy and On-policy 异策和同策_figure_1.png

实例

Off-policy：Q-Learning
On-policy：Sarsa

类比

[!note] 记录与该概念类似的概念，属于 how 的部分

对比

[!note] 记录与该概念进行对比的概念，属于 how 的部分

效果

[!note] 记录该概念如何解决实际问题，属于 how good 的部分

备注

[!note] 记录相关链接等其他补充内容

反向链接

Q Learning

#播种

Reinforcement learning 强化学习

[[Reinforcement Learning 强化学习.canvas]]

强化学习 q Learning 简介

Q-Learning 是强化学习中的一种 [[RL Off-policy and On-policy 异策和同策异策]]（off-policy）、无模型（model-free）算法，由 [[强化学习 - Q-Learning 简介#^56bb17 Watkins]] 在 1989 年提出。是用来求解 [[Markov Decision Process 马尔可夫决策过程...

到头儿啦~

Rl off Policy and on Policy 异策和同策

缘由

说明

实例

类比

对比

效果

备注

反向链接

局部关系图

预览: