2.6-贝尔曼方程的矩阵形式

2.6 贝尔曼方程的矩阵向量形式¶

\((2.7)\)中的贝尔曼方程是元素形式的。由于它对每个状态都有效、我们可以将所有这些方程组合起来，以矩阵向量形式简明地写出、这将经常用于分析贝尔曼方程。

为了得出矩阵向量形式，我们首先将\((2.7)\)中的贝尔曼方程重写为

\[v_\pi (s)=r_\pi (s)+\gamma\sum_{s'\in \mathcal{S}}p_\pi(s'|s)v_\pi(s')\]

在这里\(r_\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)\sum_{r\in \mathcal{R}}p(r|s,a)r,\) \(p_\pi(s'|s)=\sum_{a\in \mathcal{A}}\pi(a|s)p(s'|s,a)\)

在这里，\(r_\pi(s)\)表示即时回报的平均值，\(p_\pi(s'|s)\)表示在策略\(s\)下从\(s\)过渡到\(s'\)的概率。

假设以\(s_i=1,\cdots,n\)，\(n=|\mathcal{S}|\)对状态进行索引，对于状态\(s_i\)，\((2.8)\)可以被写为

\[v_\pi(s_i)=r_\pi(s_i)+\gamma\sum_{s_j\in \mathcal{S}}p_\pi(s_j|s_i)v_\pi(s_j)\]

令\(v_\pi=[v_\pi(s_1),\cdots,v_\pi(s_n)]^T\in\mathbb{R}^n,r_\pi=[r_\pi(s_1),\cdots,r_\pi(s_n)]^T\in\mathbb{R}^n\)和\(P_\pi \in \mathbb{R}^{n \times n}\)和\([P_\pi]_{ij}=p_\pi (s_j|s_i)\)。这时，\((2.9)\)可以被写为下列的矩阵向量形式

\[v_\pi=r_\pi+\gamma P_\pi v_\pi\]

在这里\(v_\pi\)是未知的，\(r_\pi,P_\pi\)是已知的。

矩阵\(P_\pi\)有一些有趣的特性。首先，它是一个非负矩阵，意味着它的所有元素都大于等于零。这一属性记为\(P_\pi \geq 0\)，其中\(0\)表示具有适当尺寸的矩阵。在本书中\(\leq\)和\(\geq\)表示元素比较运算。其次，\(P_\pi\)为随机矩阵、这意味着每行的数值总和等于\(1\)。这个性质表示为\(P_\pi \mathbf{1}=\mathbf{1}\)，其中\(\mathbf{1}=[1,\cdots,1]^T\)有恰当的维度。

考虑在图\(2.6\)中展示的例子，贝尔曼方程的矩阵向量形式是:

\[\underbrace{\begin{bmatrix}v_\pi(s_1)\\v_\pi(s_2)\\v_\pi(s_3)\\v_\pi(s_4)\end{bmatrix}}_{v_\pi}=\underbrace{\begin{bmatrix}r_\pi(s_1)\\r_\pi(s_2)\\r_\pi(s_3)\\r_\pi(s_4)\end{bmatrix}}_{r_\pi}+\gamma\underbrace{\begin{bmatrix}p_\pi(s_1|s_1)&p_\pi(s_2|s_1)&p_\pi(s_3|s_1)&p_\pi(s_4|s_1)\\p_\pi(s_1|s_2)&p_\pi(s_2|s_2)&p_\pi(s_3|s_2)&p_\pi(s_4|s_2)\\p_\pi(s_1|s_3)&p_\pi(s_2|s_3)&p_\pi(s_3|s_3)&p_\pi(s_4|s_3)\\p_\pi(s_1|s_4)&p_\pi(s_2|s_4)&p_\pi(s_3|s_4)&p_\pi(s_4|s_4)\end{bmatrix}}_{P_\pi}\underbrace{\begin{bmatrix}v_\pi(s_1)\\v_\pi(s_2)\\v_\pi(s_3)\\v_\pi(s_4)\end{bmatrix}}_{v_\pi}.\]

将这些特定值代入上述公式可得:

\[\begin{bmatrix}v_\pi(s_1)\\v_\pi(s_2)\\v_\pi(s_3)\\v_\pi(s_4)\end{bmatrix}=\begin{bmatrix}0.5(0)+0.5(-1)\\1\\1\\1\end{bmatrix}+\gamma\begin{bmatrix}0&0.5&0.5&0\\0&0&0&1\\0&0&0&1\\0&0&0&1\end{bmatrix}\begin{bmatrix}v_\pi(s_1)\\v_\pi(s_2)\\v_\pi(s_3)\\v_\pi(s_4)\end{bmatrix}.\]

可以发现矩阵\(P_\pi\)满足\(P_\pi \mathbf{1}=\mathbf{1}\)

图2.6: 演示贝尔曼方程的矩阵向量形式的示例。