3.5-影响最优策略的因素
3.5 影响最优政策的因素¶
BOE是一种用于分析最优策略的强大工具。接下来,我们将应用BOE来研究哪些因素会影响最优策略。通过观察BOE的逐元素表达式,可以很容易地回答这个问题:
最优状态值和最优策略由以下参数决定:1)即时奖励\(r\), 2)折现率\(\gamma\),以及3) 系统模型 \(p(s'|s,a), p(r|s,a)\)。在系统模型固定的情况下,我们接下来讨论当\(r\)和\(\gamma\)的值发生变化时,最优策略如何变化。本节中所展示的所有最优策略均可通过定理\(3.3\)中的算法获得。该算法的实现细节将在第\(4\)章中给出。本章主要关注最优策略的基本性质。
一个基线例子¶
考虑图\(3.4\)中的示例。奖励设置为 \(r_{boundary} = r_{forbidden} = −1,r_{target} = 1\)。此外,对于每一步移动,智能体都会获得\(r_{other}=0\)的奖励。折现率选择为\(\gamma= 0.9\)。
在上述参数下,最优策略和最优状态值如图\(3.4(a)\)所示。有趣的是,智能体并不惧怕穿过禁区以到达目标区域。更具体地说,从状态(行=4,列=1)开始,智能体有两种到达目标区域的选项。第一种选项是避开所有禁区,长途跋涉到达目标区域;第二种选项是穿过禁区。尽管智能体进入禁区时会获得负奖励,但第二种路径的累积奖励却大于第一种路径。因此,由于\(\gamma\)值相对较大,最优策略具有远见性。
折现率的影响¶
如果我们把折现率从\(\gamma= 0.9\)改为\(\gamma= 0.5\),并保持其他参数不变,最优策略将变为图\(3.4(b)\)所示的策略。有趣的是,智能体不再敢冒险,而是宁愿走很长的路到达目标,同时避开所有禁区。这是因为由于\(\gamma\)的值相对较小,最优策略变得目光短浅。
图\(3.4\): 给定不同参数值时的最优策略和最优状态值。
在极端情况下,当\(\gamma= 0\)时,相应的最优策略如图\(3.4(c)\)所示。在这种情况下,智能体无法到达目标区域。这因为每个状态下的最优策略是非常短视的,它仅仅选择具有最大即时奖励的动作,而不是选择具有最大总奖励的动作。
此外,状态值的空间分布呈现出一种有趣的模式:靠近目标的状态具有较大的状态值,而远离目标的状态则具有较小的状态值。这种模式在图\(3.4\)所示的所有示例中都可以观察到。这种现象可以用折现率来解释:如果一个状态需要沿着更长的轨迹才能到达目标,则由于折现率的作用,其状态值会较小。
奖励值的影响¶
如果我们希望严格禁止智能体进入任何禁区,可以增加其违规行为所受到的惩罚。例如,如果\(r_{forbidden}\)从\(-1\)改\(-10\),那么得到的最优策略可以避免所有禁区(见图 \(3.4(d)\))。
然而,改变奖励并不总是会导致不同的最优策略。一个重要的事实是,最优策略对奖励的仿射变换是不变的。换句话说,如果我们对所有奖励进行缩放,或者给所有奖励加上相同的值,最优策略仍然保持不变。
Note
定理3.6 (最优策略不变性). 考虑一个马尔可夫决策过程,其最优状态值为\(v^∗\in \mathbb{R}^{|\mathcal{S}|}\),满足\(v^∗ = max_{\pi\in\Pi}(r_\pi + \gamma P_\pi v^∗)\)。如果每个奖励\(r\in \mathcal{R}\),经过仿射变换变为 \(\alpha r + \beta\),其中 \(\alpha,\beta\in \mathbb{R}\)且 \(α\geq 0\),则相应的最优状态值\(v^\prime\)也是\(v^*\)的仿射变换:
这里\(\gamma\in(0,1)\)是折现率并且\(\mathbb{1}=[1,\cdots,1]^T\)。因此,从\(v^\prime\)导出的最优策略对奖励值的仿射变换是不变的。
读者可参考[9]以进一步讨论在何种条件下对奖励值的修改能够保持最优策略。
避免无意义的绕道¶
在奖励设置中,智能体在每个动作步骤都会获得奖励\(r_{other} = 0\)(除非它进入了禁区、目标区域,或试图超出边界)。由于零奖励并不是惩罚,那么最优策略是否会在到达目标之前采取毫无意义的绕道行为?我们是否应该将\(r_{other}\)设置为负值,以鼓励智能体尽快到达目标?
图\(3.5\):示例最优策略不会因折现率而采取无意义的迂回路线。
请参考图\(3.5\)中的示例,其中右下角的单元格为目标区域。这里的两种策略除了状态\(s_2\)之外是相同的。根据图\(3.5(a)\)中的策略,智能体在\(s_2\)处向下移动,由此产生的轨迹为\(s_2 \rightarrow s_4\)。根据图\(3.5(b)\)中的策略,智能体向左移动,由此产生的轨迹为\(s_2 \rightarrow s_1 \rightarrow s_3 \rightarrow s_4\)。
值得注意的是,第二种策略在到达目标区域之前绕了一个弯路。如果我们仅仅考虑即时奖励,那么绕这个弯路并不重要,因为不会获得任何负面的即时奖励。然而,如果我们考虑折现回报,那么这个弯路就变得重要了。特别是对于第一种策略,其折现回报为:
作为比较,第二种政策的折现回报是
很明显,轨迹越短,回报就越大。因此,尽管每一步的即时奖励并不鼓励智能体尽快接近目标,但折现率确实会促使它这样做。
初学者可能会产生一个误解,即为了鼓励智能体尽快到达目标,需要在每次行动所获得的奖励基础上额外添加一个负奖励(例如\(-1\))。这种理解是错误的,因为将相同的奖励加到所有奖励之上是一种仿射变换,这种变换不会改变最优策略。此外,即使绕道可能不会立即获得任何负奖励,最优策略也不会因为折现率而采取毫无意义的绕道。
Question
为了避免绕远路,而添加惩罚的思想是不可取的,因为由定理3.6,对奖励实施仿射变换并不会使得状态值的相对值发生变化。