2.6-贝尔曼方程的矩阵形式
2.6 贝尔曼方程的矩阵向量形式¶
\((2.7)\)中的贝尔曼方程是元素形式的。由于它对每个状态都有效、我们可以将所有这些方程组合起来,以矩阵向量形式简明地写出、这将经常用于分析贝尔曼方程。
为了得出矩阵向量形式,我们首先将\((2.7)\)中的贝尔曼方程重写为
在这里\(r_\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)\sum_{r\in \mathcal{R}}p(r|s,a)r,\) \(p_\pi(s'|s)=\sum_{a\in \mathcal{A}}\pi(a|s)p(s'|s,a)\)
在这里,\(r_\pi(s)\)表示即时回报的平均值,\(p_\pi(s'|s)\)表示在策略\(s\)下从\(s\)过渡到\(s'\)的概率。
假设以\(s_i=1,\cdots,n\),\(n=|\mathcal{S}|\)对状态进行索引,对于状态\(s_i\),\((2.8)\)可以被写为
令\(v_\pi=[v_\pi(s_1),\cdots,v_\pi(s_n)]^T\in\mathbb{R}^n,r_\pi=[r_\pi(s_1),\cdots,r_\pi(s_n)]^T\in\mathbb{R}^n\)和\(P_\pi \in \mathbb{R}^{n \times n}\)和\([P_\pi]_{ij}=p_\pi (s_j|s_i)\)。这时,\((2.9)\)可以被写为下列的矩阵向量形式
在这里\(v_\pi\)是未知的,\(r_\pi,P_\pi\)是已知的。
矩阵\(P_\pi\)有一些有趣的特性。首先,它是一个非负矩阵,意味着它的所有元素都大于等于零。这一属性记为\(P_\pi \geq 0\),其中\(0\)表示具有适当尺寸的矩阵。在本书中\(\leq\)和\(\geq\)表示元素比较运算。其次,\(P_\pi\)为随机矩阵、 这意味着每行的数值总和等于\(1\)。这个性质表示为\(P_\pi \mathbf{1}=\mathbf{1}\),其中\(\mathbf{1}=[1,\cdots,1]^T\)有恰当的维度。
考虑在图\(2.6\)中展示的例子,贝尔曼方程的矩阵向量形式是:
将这些特定值代入上述公式可得:
可以发现矩阵\(P_\pi\)满足\(P_\pi \mathbf{1}=\mathbf{1}\)
图2.6: 演示贝尔曼方程的矩阵向量形式的示例。