Epsilon Greedy policy

阅读量:

#播种

通常用来平衡探索/利用关系的策略,在 强化学习、推荐系统等领域中广泛应用

缘由

[!note] 记录为什么有这个概念/想法/事实/观点,属于 why 的部分

说明

将 $\epsilon$ 初始化为 1,在起始阶段主要进行探索;随着训练次数的增加,不断减小 $\epsilon$ 的值,增加利用已有经验的概率

Epsilon-Greedy Policy_figure_1.png

Epsilon-Greedy Policy_figure_2.png

实例

衰减方式

  1. \[\epsilon = \epsilon_{min} + (\epsilon_{max} - \epsilon_{min}) * e^{-decay\_rate * episode}\]

类比

[!note] 记录与该概念类似的概念,属于 how 的部分

对比

  1. [[ Greedy Policy ]]

效果

使得智能体在不同阶段选择探索/利用已有知识的比例,同时确保在学习后期仍然保持一定探索新的可能性的几率

备注

[!note] 记录相关链接等其他补充内容

反向链接

到头儿啦~

局部关系图