Rl policy 行动策略

最后修改于 2023-07-18

阅读量:

有两种行动策略（The Policy $\pi$）来解决 RL 问题，基于策略（policy-based）和基于价值（value-based）。

WHY

帮助 Agent 在某一时刻 $t$ 选择行动以最大化累积奖励。

行动策略是一个需要通过学习得到的函数，目标是找到一个最优的行动策略（$\pi^*$）。

#待整理笔记

强化学习中的一种 [[RL Policy 行动策略行动策略]]，让 Agent 直接学习在给定状态下如何行动。

[[Reinforcement Learning 强化学习.canvas]]

强化学习中的一种 [[RL Policy 行动策略行动策略]]，让 Agent 学习哪种状态更有价值从而选择能够产生该状态的行动。

到头儿啦~