Rl 实现过程

阅读量:[object Object]
  • Agent 接收到环境状态 S0
  • 根据 S0,Agent 执行动作 A0
  • 此时根据 Agent 所执行的动作,环境状态改变为 S1
  • 根据此时的环境状态 S1,给出一定奖励 R0

RL 实现过程_figure_1.png

WHY

通过不断循环这一过程,使得累积的奖励(reward)达到最大,称作 expected return。

强化学习的中心思想就是通过最大化累计奖励,得到解决问题的最优方案。(reward hypothesis)

WHAT

reward:单次状态改变所获得的奖励

expected return:从开始到当前状态下的累积奖励

HOW

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图

Rl 实现过程Reinforcement learning 强化学习

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.15.8