Epsilon Greedy policy

最后修改于 2023-07-18

阅读量:[object Object]

#播种

通常用来平衡探索/利用关系的策略，在强化学习、推荐系统等领域中广泛应用

缘由

[!note] 记录为什么有这个概念/想法/事实/观点，属于 why 的部分

说明

将 $ϵ$ 初始化为 1，在起始阶段主要进行探索；随着训练次数的增加，不断减小 $ϵ$ 的值，增加利用已有经验的概率

Epsilon-Greedy Policy_figure_1.png

Epsilon-Greedy Policy_figure_2.png

实例

衰减方式

$ϵ = ϵ_{m i n} + (ϵ_{m a x} - ϵ_{m i n}) * e^{- d e c a y_r a t e * e p i s o d e}$

类比

[!note] 记录与该概念类似的概念，属于 how 的部分

对比

[[ Greedy Policy ]]

效果

使得智能体在不同阶段选择探索/利用已有知识的比例，同时确保在学习后期仍然保持一定探索新的可能性的几率

备注

[!note] 记录相关链接等其他补充内容

反向链接

Rl value function 价值函数

强化学习中 [[Value-Based Method 基于价值的方法 Value-Based Method]] 所使用的价值函数（Value Function）

Q Learning

#播种

Reinforcement learning 强化学习

[[Reinforcement Learning 强化学习.canvas]]

强化学习 q Learning 简介

Q-Learning 是强化学习中的一种 [[RL Off-policy and On-policy 异策和同策异策]]（off-policy）、无模型（model-free）算法，由 [[强化学习 - Q-Learning 简介#^56bb17 Watkins]] 在 1989 年提出。是用来求解 [[Markov Decision Process 马尔可夫决策过程...

到头儿啦~

Epsilon Greedy policy

缘由

说明

实例

衰减方式

类比

对比

效果

备注

反向链接

局部关系图

预览: