Rl policy 行动策略
阅读量:
有两种行动策略(The Policy $\pi$)来解决 RL 问题,基于策略(policy-based)和基于价值(value-based)。
WHY
帮助 Agent 在某一时刻 $t$ 选择行动以最大化累积奖励。
WHAT
行动策略是一个需要通过学习得到的函数,目标是找到一个最优的行动策略($\pi^*$)。
HOW
实例
HOW GOOD
ref.
#待整理笔记
反向链接
到头儿啦~