Rl value function 价值函数

阅读量:

强化学习中 Value-Based Method 所使用的价值函数(Value Function)

WHY

WHAT

有两类基于价值的函数

  1. State-Value Function 状态价值函数
    • 对于每一个状态,状态价值函数输出累计奖励(expected return)如果 Agent 开始于该状态,且之后一直遵循行动策略 RL 价值函数_figure_1.png
  2. Action-Value Function 动作价值函数
    • 对于每一个状态,动作价值函数输出累计奖励(expected return)如果 Agent 开始于该状态并执行动作,且之后一直遵循行动策略 RL 价值函数_figure_2.png

RL 价值函数_figure_3.png

HOW

  1. 在状态价值函数中,计算状态($S_t$)的价值
  2. 在动作价值函数中,计算状态 - 动作($S_t, A_t$)的价值

使用 Bellman Equation 贝尔曼方程 来简化状态价值和状态 - 动作价值的计算

通常使用 Epsilon-Greedy Policy 来平衡探索/利用的关系

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图