Epsilon Greedy policy

阅读量:[object Object]

#播种

通常用来平衡探索/利用关系的策略,在 强化学习、推荐系统等领域中广泛应用

缘由

[!note] 记录为什么有这个概念/想法/事实/观点,属于 why 的部分

说明

ϵ 初始化为 1,在起始阶段主要进行探索;随着训练次数的增加,不断减小 ϵ 的值,增加利用已有经验的概率

Epsilon-Greedy Policy_figure_1.png

Epsilon-Greedy Policy_figure_2.png

实例

衰减方式

  1. ϵ=ϵmin+(ϵmaxϵmin)edecay_rateepisode

类比

[!note] 记录与该概念类似的概念,属于 how 的部分

对比

  1. [[ Greedy Policy ]]

效果

使得智能体在不同阶段选择探索/利用已有知识的比例,同时确保在学习后期仍然保持一定探索新的可能性的几率

备注

[!note] 记录相关链接等其他补充内容

反向链接

到头儿啦~

局部关系图

Rl value function 价值函数Q LearningEpsilon Greedy policyReinforcement learning 强化学习强化学习 q Learning 简介

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.15.8