跳转至

3.2-最优状态值和最优策略

3.2最优状态值和最优策略

虽然强化学习的最终目标是获得最优策略,但有必要首先定义什么是最优策略。定义是基于状态值的。特别地,考虑两个给定的策略\(\pi_1\)\(\pi_2\)。如果对于任何状态,\(\pi_1\)的状态值大于或等于\(\pi_2\)的状态值:

\[v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S. \]

那么\(\pi_1\)就比\(\pi_2\)好。此外,如果一个策略优于所有其他可能的策略,则该策略是最优的。这一点正式说明如下。

定义3.1(最优策略和最优状态值). 一个策略\(\pi^*\)是最优的,如果对所有\(s\in \mathcal{S}\)和任何其他策略\(\pi\)\(v_{\pi^*}(s)\geq v_\pi(s)\)\(\pi^*\)的状态值是最优状态值。

上面的定义表明,与所有其他策略相比,最优策略对于每个状态都具有最大的状态值。这个定义也引出了很多问题:

  • 存在性:最优策略是否存在?
  • 唯一性:最优策略是唯一的吗?
  • 随机性:最优策略是随机的还是确定的?
  • 算法:如何获得最优策略和最优状态值?

要彻底理解最优策略,必须明确回答这些基本问题。例如,关于最优策略的存在性,如果最优策略不存在,那么我们不需要费心设计算法来找到它们。

我们将在本章的剩余部分回答所有这些问题。