Markov decision process 马尔可夫决策过程
阅读量:
[!维基百科] 在数学中,马尔可夫决策过程(英语:Markov decision process,MDP)是离散时间随机控制过程。 它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。
WHY
WHAT
HOW
实例
HOW GOOD
ref.
#待整理笔记
反向链接
强化学习 q Learning 简介
Q-Learning 是强化学习中的一种 [[RL Off-policy and On-policy 异策和同策 异策]](off-policy)、无模型(model-free)算法,由 [[强化学习 - Q-Learning 简介#^56bb17 Watkins]] 在 1989 年提出。是用来求解 [[Markov Decision Process 马尔可夫决策过程...
到头儿啦~