介绍
在上一章中,我们介绍了基于系统模型寻找最优策略的算法。在本章中,我们将开始介绍无模型(model-free)强化学习算法,这些算法并不假定系统模型。
尽管这是我们首次在本书中介绍无模型算法,但我们必须填补一个知识空白:如果没有模型,我们如何找到最优策略呢?其理念很简单:如果我们没有模型,就必须有一些数据;如果我们没有数据,就必须有一个模型;如果我们两者都没有,我们就无法找到最优策略。强化学习中的“数据”通常指的是智能体与环境交互所获得的经验。
为了展示如何从数据而非模型中学习,本章首先介绍均值估计问题,即从一些样本中估计随机变量的期望值。理解这一问题对于理解从数据中学习的基本思想至关重要。然后,我们介绍三种基于蒙特卡洛(MC)方法的算法。这些算法能够从经验样本中学习最优策略。第一个也是最简单的算法称为MC Basic,它可以通过修改上一章介绍的策略迭代算法而轻松获得。理解这一算法对于掌握基于蒙特卡洛的强化学习的基本思想非常重要。通过扩展这一算法,我们进一步介绍另外两种算法,它们虽然更复杂,但效率更高。