介绍
第\(5\)章介绍了基于蒙特卡洛估计的第一类无模型强化学习算法。在下一章(第\(7\)章),我们将介绍另一类无模型强化学习算法:时序差分学习。但在进入下一章之前,我们需要暂停一下做好准备。这是因为时序差分算法与我们迄今为止所学习的算法有很大不同。许多初次接触时序差分算法的读者常常会好奇,这些算法最初是如何设计出来的,以及为什么它们能够有效。事实上,前后两章之间存在知识上的断层:我们迄今为止所学习的算法是非增量式的,但我们将在后续章节中学习的算法则是增量式的。
本章旨在填补这一知识空白,介绍随机近似(stochastic aproximation)的基本概念。尽管本章并未介绍任何具体的强化学习算法,但它为后续章节的学习奠定了必要的基础。我们将在第\(7\)章看到,时序差分算法可以被视为特殊的随机近似算法。本章还将介绍在机器学习中广泛使用的随机梯度下降算法。