Rl value function 价值函数
阅读量:
强化学习中 Value-Based Method 所使用的价值函数(Value Function)
WHY
WHAT
有两类基于价值的函数
- State-Value Function 状态价值函数
- 对于每一个状态,状态价值函数输出累计奖励(expected return)如果 Agent 开始于该状态,且之后一直遵循行动策略
- Action-Value Function 动作价值函数
- 对于每一个状态,动作价值函数输出累计奖励(expected return)如果 Agent 开始于该状态并执行动作,且之后一直遵循行动策略
HOW
- 在状态价值函数中,计算状态($S_t$)的价值
- 在动作价值函数中,计算状态 - 动作($S_t, A_t$)的价值
使用 Bellman Equation 贝尔曼方程 来简化状态价值和状态 - 动作价值的计算
通常使用 Epsilon-Greedy Policy 来平衡探索/利用的关系
实例
HOW GOOD
ref.
#待整理笔记
反向链接
到头儿啦~