Rl 学习策略

最后修改于 2023-07-18

阅读量:[object Object]

#发芽

RL Agent 与环境互动进行学习的两种学习策略：Monte Carlo 和 Temporal Difference

缘由

[!note] 记录为什么有这个概念/想法/事实/观点，属于 why 的部分

Monte Carlo 在完成一次模拟后进行更新，Temporal Difference 则在模拟中的每一步执行后进行更新

[!note] 记录概念的应用实例，属于 how 的部分

[!note] 记录与该概念类似的概念，属于 how 的部分

[!note] 记录与该概念进行对比的概念，属于 how 的部分

[!note] 记录该概念如何解决实际问题，属于 how good 的部分

[!note] 记录相关链接等其他补充内容

[[Reinforcement Learning 强化学习.canvas]]

到头儿啦~