Rl 实现过程
阅读量:
- Agent 接收到环境状态 $S_0$
- 根据 $S_0$,Agent 执行动作 $A_0$
- 此时根据 Agent 所执行的动作,环境状态改变为 $S_1$
- 根据此时的环境状态 $S_1$,给出一定奖励 $R_0$
WHY
通过不断循环这一过程,使得累积的奖励(reward)达到最大,称作 expected return。
强化学习的中心思想就是通过最大化累计奖励,得到解决问题的最优方案。(reward hypothesis)
WHAT
reward:单次状态改变所获得的奖励
expected return:从开始到当前状态下的累积奖励
HOW
实例
HOW GOOD
ref.
#待整理笔记
反向链接
到头儿啦~