Rl policy 行动策略

阅读量:

有两种行动策略(The Policy $\pi$)来解决 RL 问题,基于策略(policy-based)和基于价值(value-based)。

WHY

帮助 Agent 在某一时刻 $t$ 选择行动以最大化累积奖励。

WHAT

行动策略是一个需要通过学习得到的函数,目标是找到一个最优的行动策略($\pi^*$)。

HOW

Policy-Based Method 基于策略的方法

Value-Based Method 基于价值的方法

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图