6.5-总结
本章未引入新的强化学习算法,而是重点阐述了随机逼近的基础理论,包括RM算法与SGD算法。相较于其他求根算法,RM算法无需目标函数或其导数的显式表达式。研究表明,SGD算法是RM算法的一种特例。此外,均值估计问题作为本章的核心议题被反复讨论——均值估计算法(6.4)是本书首次引入的随机迭代算法,我们证明其本质为特殊的SGD算法。后续第七章将揭示时序差分学习算法具有相似表达形式。需要说明的是,"随机逼近"术语由Robbins与Monro于1951年首次提出[25],更多理论基础可参阅文献[24]。