Rl value function 价值函数

最后修改于 2023-07-18

阅读量:

强化学习中 Value-Based Method 所使用的价值函数（Value Function）

WHY

WHAT

有两类基于价值的函数

State-Value Function 状态价值函数
- 对于每一个状态，状态价值函数输出累计奖励（expected return）如果 Agent 开始于该状态，且之后一直遵循行动策略
Action-Value Function 动作价值函数
- 对于每一个状态，动作价值函数输出累计奖励（expected return）如果 Agent 开始于该状态并执行动作，且之后一直遵循行动策略

RL 价值函数_figure_3.png

HOW

在状态价值函数中，计算状态（$S_t$）的价值
在动作价值函数中，计算状态 - 动作（$S_t, A_t$）的价值

使用 Bellman Equation 贝尔曼方程来简化状态价值和状态 - 动作价值的计算

通常使用 Epsilon-Greedy Policy 来平衡探索/利用的关系

实例

HOW GOOD

ref.

#待整理笔记

反向链接

Reinforcement learning 强化学习

[[Reinforcement Learning 强化学习.canvas]]

Value Based method 基于价值的方法

强化学习中的一种 [[RL Policy 行动策略行动策略]]，让 Agent 学习哪种状态更有价值从而选择能够产生该状态的行动。

到头儿啦~

局部关系图