Value Based method 基于价值的方法
阅读量:
强化学习中的一种 行动策略,让 Agent 学习哪种状态更有价值从而选择能够产生该状态的行动。
WHY
WHAT
价值函数(Value Function) 定义了一个状态和达到该状态的期望值的映射。
HOW
如果 Agent 在一个状态开始并且根据价值函数行动,该状态的价值则是折扣后的期望返回值。根据价值函数行动指向最高价值的状态行动。
实例
HOW GOOD
ref.
#待整理笔记
反向链接
Rl value function 价值函数
强化学习中 [[Value-Based Method 基于价值的方法
Value-Based Method]] 所使用的价值函数(Value Function)
到头儿啦~