Rl 实现过程

阅读量:
  • Agent 接收到环境状态 $S_0$
  • 根据 $S_0$,Agent 执行动作 $A_0$
  • 此时根据 Agent 所执行的动作,环境状态改变为 $S_1$
  • 根据此时的环境状态 $S_1$,给出一定奖励 $R_0$

RL 实现过程_figure_1.png

WHY

通过不断循环这一过程,使得累积的奖励(reward)达到最大,称作 expected return。

强化学习的中心思想就是通过最大化累计奖励,得到解决问题的最优方案。(reward hypothesis)

WHAT

reward:单次状态改变所获得的奖励

expected return:从开始到当前状态下的累积奖励

HOW

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图