Rl off Policy and on Policy 异策和同策
阅读量:
#发芽
强化学习中描述动作选择阶段和更新价值函数阶段的策略是否相同的术语
缘由
[!note] 记录为什么有这个概念/想法/事实/观点,属于 why 的部分
说明
强化学习中,选择动作阶段(acting)和更新价值函数阶段(updating)的策略是否相同。若不同,则为 off-policy;若相同,则为 on-policy
实例
- Off-policy:Q-Learning
- On-policy:Sarsa
类比
[!note] 记录与该概念类似的概念,属于 how 的部分
对比
[!note] 记录与该概念进行对比的概念,属于 how 的部分
效果
[!note] 记录该概念如何解决实际问题,属于 how good 的部分
备注
[!note] 记录相关链接等其他补充内容
反向链接
强化学习 q Learning 简介
Q-Learning 是强化学习中的一种 [[RL Off-policy and On-policy 异策和同策 异策]](off-policy)、无模型(model-free)算法,由 [[强化学习 - Q-Learning 简介#^56bb17 Watkins]] 在 1989 年提出。是用来求解 [[Markov Decision Process 马尔可夫决策过程...
到头儿啦~