4.4-总结
总结¶
本章介绍了三种可用于寻找最优策略的算法。
-
值迭代(Value Iteration):值迭代算法与由压缩映射定理提出的用于求解贝尔曼最优公式的算法相同。它可分解为两个步骤:值更新和策略更新。
-
策略迭代(Policy Iteration):策略迭代算法比值迭代算法稍复杂,同样包含两个步骤:策略评估和策略改进。
-
截断策略迭代(Truncated Policy Iteration):值迭代和策略迭代算法可被视为截断策略迭代算法的两个极端情况。
这三种算法的共同特点是,每次迭代都包含两个步骤:一个步骤用于更新值,另一个步骤用于更新策略。值与策略更新之间相互作用的思想广泛存在于强化学习算法中,这种思想也被称为广义策略迭代(Generalized Policy Iteration)[3]。
最后,本章介绍的算法都需要系统模型。从第\(5\)章开始,我们将研究无模型强化学习算法。我们将看到,通过扩展本章介绍的算法,可以得到无模型的算法。