Rl monte carlo

最后修改于 2023-07-18

阅读量:

#发芽

强化学习中更新价值函数的一种方式

缘由

[!note] 记录为什么有这个概念/想法/事实/观点，属于 why 的部分

在完成一个完整的 episode 后，根据累积奖励计算每个状态的价值。即当一次模拟完成或达到终止条件时，根据每一个状态所获得的奖励总和计算每一个状态的新的价值。

RL Monte Carlo_figure_1.png

[!note] 记录概念的应用实例，属于 how 的部分

[!note] 记录与该概念类似的概念，属于 how 的部分

[!note] 记录与该概念进行对比的概念，属于 how 的部分

[!note] 记录该概念如何解决实际问题，属于 how good 的部分

[!note] 记录相关链接等其他补充内容

Rl 学习策略

#发芽

到头儿啦~