介绍

第二章将介绍核心概念-状态值(state value),它被定义为一个智能体在遵循给定策略的情况下所能获得的平均奖励。状态值越大,相应的政策就越好。状态值可以作为一种衡量标准,用来评价一项政策是好还是。状态值固然重要,但如何分析它们呢?答案就是贝尔曼方程(Bellman equation),它是分析状态值的重要工具。简而言之,贝尔曼方程描述了所有状态值之间的关系。通过求解贝尔曼方程,我们可以得到状态值。这一过程称为策略评估(policy evaluation),它是强化学习中的一个基本概念。最后,第二章还将介绍另一个重要概念-行动值(action value)。