Markov decision process 马尔可夫决策过程

最后修改于 2023-07-18

阅读量:[object Object]

[!维基百科] 在数学中，马尔可夫决策过程（英语：Markov decision process，MDP）是离散时间随机控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。

WHY

WHAT

HOW

实例

HOW GOOD

ref.

#待整理笔记

反向链接

Probability theory 概率论

[[Discrete Variable 离散变量]]

Bellman equation 贝尔曼方程

#发芽

Reinforcement learning 强化学习

[[Reinforcement Learning 强化学习.canvas]]

强化学习 q Learning 简介

Q-Learning 是强化学习中的一种 [[RL Off-policy and On-policy 异策和同策异策]]（off-policy）、无模型（model-free）算法，由 [[强化学习 - Q-Learning 简介#^56bb17 Watkins]] 在 1989 年提出。是用来求解 [[Markov Decision Process 马尔可夫决策过程...

到头儿啦~

Markov decision process 马尔可夫决策过程

WHY

WHAT

HOW

实例

HOW GOOD

ref.

反向链接

局部关系图

预览: