Rl 学习策略

阅读量:

#发芽

RL Agent 与环境互动进行学习的两种学习策略:Monte CarloTemporal Difference

缘由

[!note] 记录为什么有这个概念/想法/事实/观点,属于 why 的部分

说明

Monte Carlo 在完成一次模拟后进行更新,Temporal Difference 则在模拟中的每一步执行后进行更新

实例

[!note] 记录概念的应用实例,属于 how 的部分

类比

[!note] 记录与该概念类似的概念,属于 how 的部分

对比

[!note] 记录与该概念进行对比的概念,属于 how 的部分

效果

[!note] 记录该概念如何解决实际问题,属于 how good 的部分

备注

[!note] 记录相关链接等其他补充内容

反向链接

到头儿啦~

局部关系图