Value Based method 基于价值的方法

阅读量:

强化学习中的一种 行动策略,让 Agent 学习哪种状态更有价值从而选择能够产生该状态的行动。

WHY

WHAT

价值函数(Value Function) 定义了一个状态和达到该状态的期望值的映射。

Value-Based Method 基于价值的方法_figure_1.png

HOW

如果 Agent 在一个状态开始并且根据价值函数行动,该状态的价值则是折扣后的期望返回值。根据价值函数行动指向最高价值的状态行动。

Value-Based Method 基于价值的方法_figure_2.png

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图