Rl 实现过程

最后修改于 2023-07-18

阅读量:[object Object]

RL 实现过程_figure_1.png

WHY

通过不断循环这一过程，使得累积的奖励（reward）达到最大，称作 expected return。

强化学习的中心思想就是通过最大化累计奖励，得到解决问题的最优方案。（reward hypothesis）

reward：单次状态改变所获得的奖励

expected return：从开始到当前状态下的累积奖励

#待整理笔记

[[Reinforcement Learning 强化学习.canvas]]

到头儿啦~