介绍

在前几章的准备基础上,我们现在可以介绍能够找到最优策略的第一个算法。本章将介绍三个彼此密切相关的算法。第一个是值迭代算法,它正是上一章中所讨论的贝尔曼最优方程求解过程中,由压缩映射定理所建议的算法。本章我们将更关注该算法的实现细节。第二个是策略迭代算法,其思想在强化学习算法中被广泛使用。第三个是截断策略迭代算法,它是一个统一的算法,包括值迭代算法和策略迭代算法作为特例。

本章介绍的算法称为动态规划算法(dynamic programming)[10, 11],它们需要系统模型。这些算法是后续章节中介绍的无模型强化学习算法的重要基础。例如,第\(5\)章介绍的蒙特卡洛算法可以通过扩展本章介绍的策略迭代算法而获得。