介绍

强化学习的最终目标是寻求最优策略。因此有必要确定什么是最优策略，在本章，我们介绍了一个核心概念和重要工具。核心概念是最优状态值，基于此我们便可以定义最优策略，贝尔曼最优公式是求解最优状态值和最优策略的重要工具。

上一章、本章和后续章节之间的关系如下。前一章(第2章)介绍了任何给定政策的贝尔曼方程。本章介绍了贝尔曼最优公式，它是一种特殊的贝尔曼公式，其对应的策略是最优的。下一章(第4章)将介绍一个重要的算法，称为值迭代，这正是本章介绍的求解贝尔曼最优性公式的算法。

请做好准备，本章的数学内容有点密集。然而，这是值得的，因为许多基本问题可以得到明确的回答。