4.4-总结

总结¶

本章介绍了三种可用于寻找最优策略的算法。

这三种算法的共同特点是，每次迭代都包含两个步骤：一个步骤用于更新值，另一个步骤用于更新策略。值与策略更新之间相互作用的思想广泛存在于强化学习算法中，这种思想也被称为广义策略迭代(Generalized Policy Iteration)[3]。

最后，本章介绍的算法都需要系统模型。从第\(5\)章开始，我们将研究无模型强化学习算法。我们将看到，通过扩展本章介绍的算法，可以得到无模型的算法。