AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介

  • 时间:
  • 浏览:0

这俩公式的物理意义也很简单,还会这俩请况的奖励打上去所有机会的下有有几个 请况的v(S')和对应的Pss' 的乘积之和,再乘以衰减值γ。

有了前面MP的铺垫,打上去D(Decision)还会MDP(马可夫决策过程了)。这俩决策是要决策哪几种呢?还会要决策行动(Action)

R

上图,空心代表请况,实心代表行动。所有行动的策略π(a|s)与Q函数qπ()的乘积之和就能得到V函数。

还会前一天提到的State transition probability matrix。

正如前一天提到的,行动A的奖励R不仅跟请况S相关,还会与行动A也是相关的,还是前一天学生学习课程的例子,打上去行动和与行动相关的R,如图:

机会加入了行动,其他其他q函数的物理意义还会,在当前策略的指导下,在当前请况下,采取行动a前一天所能预期得到的奖励是有几个。

注意,MDP除去决策"D",还会MP。MP是有有几个 随机过程。从现在请况 S下有有几个 请况 S' 通过Pss' 请况转移概率矩阵(State transition probability matrix)来完成这俩过程, Pss'还会概率,其他其他MP还是随机的。

G

奖励R是环境的反馈,当然这俩反馈是与行动A, 相关的。在还没引入行动这俩概念前一天,不须认为只与请况S有关。下图是打上去了奖励参数的样子:

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言机会访问我的Steemit主页

γ为衰减值(0到1之间),让我们我们在前一天Q-Learning中机会介绍过了,就太少说了。

当然让我们我们更关心策略是怎么才能 才能 指导行动的,让我们我们引入行动值函数(Action-Value Function) qπ(s,a) 的概念。看起来是一定会很眼熟,机会让我们我们通常又叫他q函数,参见前一天的文章Q-Learning。

v(S)很明显是有有几个 递归的过程,也还会说知道了最终请况v(S最终)(后边那个例子是Sleep)就还都还都上能 倒推到初始请况的v(S初始),这俩关系还会用Bellman 等式表达出来的。

的物理意义还会前一天请况的所有R的总和。

利用后边的公式让我们我们还都还都上能 轻易验证例子中pass的V函数:

注意:π(a|study)= π(a|pub) =0.5

是这俩请况的奖励,S' 是下有有几个 请况(下个机会的请况机会不止有有几个 ),P

这俩估算出来的Gt就叫做这俩请况S上的Sate Value function(请况值函数): v(S)

策略是用来指导行动的,不须与描述请况间的Pss' 混淆了。当然两者是有联系的,后边机会提到。

再次注意,Pss'反映的是请况间的转移概率,π(a|s)是请况和行动间的策略概率

当还会边两图组合(公式的带入)就能反映该请况的V函数和下有有几个 请况的V函数的递归关系。

其中,哪几种数字(0.9,0.1)和箭头就代表了Pss' 的数值和请况转移的方向。Pss' 实际上是有有几个 矩阵,如下图:

这是MDP最重要的的概念。前面机会提到了请况值函数(State-Value Function)v(S)(后边简称V函数),还会越来越 机器人,越来越 策略指导机器人的行动。

前面好几篇文章一定会介绍强化学习(RL),以及强化学习的其他具体算法,还会强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来句子MDP。

通过Q函数来求V函数:

V函数和Q函数一定会递归关系,这俩通过Bellman 等式也还都还都上能 证明,这里还会再赘述。

在任意有有几个 请况S怎么才能 才能 求v(S)呢?都还都上能 用到下面这俩公式

让我们我们的目标Gt是获得奖励,有了R,有了S,有了Pss' 矩阵,实际上让我们我们就都都还都上能估算出每有有几个 S上的Gt:E(Gt|St = S)。

Gt 是另有有几个 定义的:

有了策略π前一天vπ(s)的物理意义还会,在该策略的指导下,在目前这俩请况下,前一天都都还都上能预期的到的的奖励是有几个。

(注意pub 那个大洞这里变成了行动,而一定会请况,主还会为了后边区分sate-value function 和 action-value function)

DP是有有几个 随机的过程,在有了策略 (policy)π前一天才整个过程才有了规律,策略也是有有几个 概率分布,体现了在给定请况下采取行动的概率。

讲MDP的文章和资料非常多,理论和数学公式都还都上能轻易找到,其他其他本文并一定会要严谨地推导MDP,还会想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richard S. Sutton and Andrew G. Barto的经典书籍:Reinforcement Learning: An Introduction

本文介绍了MDP的基本概念,然而让我们我们了解MDP的概念是为了指导让我们我们的行动,从而得到最优的结果。换句话说还会取舍最优的策略,得到最多的奖励。再换句话说还会求最大的V函数和Q函数,哪几种内容将中放下一篇文章再做介绍。

举个栗子:

如下图,有有几个 学生学习一门课程,有6个请况:从Class1 到 Class 3 的学习,到Pass再到去Sleep。后边机会去刷Facebook, 去Sleep机会去酒吧(Pub)喝酒。

RL是要通过对环境不停地试错来学习的,MDP还会用来描述RL中的环境。

同样的,所有下有有几个 请况的V函数与对应的Pss'乘积之和再打上去采取该行动的奖励就能求得Q函数。

倒过来组合(公式带入)就能反映该行动下的Q函数和下有有几个 行动的Q函数的递归关系。

让我们我们还都还都上能 轻易验证4.3这俩v(s) 是不是正确,如下图(γ=1)