Markov decision process 马尔可夫决策过程

阅读量:[object Object]

[!维基百科] 在数学中,马尔可夫决策过程(英语:Markov decision process,MDP)是离散时间随机控制过程。 它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。

WHY

WHAT

HOW

实例

HOW GOOD

ref.

#待整理笔记

反向链接

到头儿啦~

局部关系图

Markov decision process 马尔可夫决策过程Probability theory 概率论Bellman equation 贝尔曼方程Reinforcement learning 强化学习强化学习 q Learning 简介

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.15.8