跳转至

3.6-总结

3.6 总结

本章的核心概念包括最优策略和最优状态值。具体而言,如果一个策略的状态值大于或等于任何其他策略的状态值,则该策略为最优策略。最优策略的状态值即为最优状态值。最优策略分析的核心工具是贝尔曼最优方程(BOE)。该方程是一个具有良好压缩性质的非线性方程,我们可以应用压缩映射定理来分析这个方程。研究表明,该方程的解对应于最优状态值和最优策略。这就是我们需要研究贝尔曼最优方程的原因。

本章的内容对于深入理解强化学习中的许多基本概念非常重要。例如,定理\(3.3\)提出了一种用于求解BOE的迭代算法。该算法正是将在第\(4\)章中介绍的值迭代算法。关于BOE的进一步讨论可参见[2]。