Policy Gradient method 策略梯度方法

阅读量:

RL 中一种 基于策略 的方法,使用 [[ 梯度上升法 ]] 对目标函数的参数进行直接优化。

WHY

WHAT

Policy-Gradient Method 策略梯度方法_figure_1.png

HOW

Policy-Gradient Method 策略梯度方法_figure_2.png

目标函数用于评价 agent 在给定的 trajectory(一系列行动)上的表现。

Policy-Gradient Method 策略梯度方法_figure_3.png

Policy-Gradient Method 策略梯度方法_figure_4.png

Policy-Gradient Method 策略梯度方法_figure_5.png

对目标函数进行变换,使其 [[ 可导 ]]

Policy-Gradient Method 策略梯度方法_figure_6.png

Policy-Gradient Method 策略梯度方法_figure_7.png

实例

HOW GOOD

优点:

  1. 直接对行动策略函数进行估计,不需要储存额外的信息(行动的价值)
  2. 能够学习随机的行动策略
  3. 针对高维度行动空间和连续的行动空间,策略梯度方法更有效率
  4. 策略梯度方法有更好的收敛性能

缺点

  1. 经常陷入局部最优解
  2. 策略梯度需要逐步求解,时间花费更高
  3. 可能会有很高的方差,用 [[ Actor-Critic ]] 方法来缓解

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图