介绍
强化学习的最终目标是寻求最优策略。因此有必要确定什么是最优策略,在本章,我们介绍了一个核心概念和重要工具。核心概念是最优状态值,基于此我们便可以定义最优策略,贝尔曼最优公式是求解最优状态值和最优策略的重要工具。
上一章、本章和后续章节之间的关系如下。前一章(第2章)介绍了任何给定政策的贝尔曼方程。本章介绍了贝尔曼最优公式,它是一种特殊的贝尔曼公式,其对应的策略是最优的。下一章(第4章)将介绍一个重要的算法,称为值迭代,这正是本章介绍的求解贝尔曼最优性公式的算法。
请做好准备,本章的数学内容有点密集。然而,这是值得的,因为许多基本问题可以得到明确的回答。