1.8-总结
本章介绍了将在本书其余部分广泛使用的基本概念。我们使用直观的网格世界示例来演示这些概念,然后在MDP框架内将其形式化。有关MDP的更多信息,读者可以参阅[1,2]。
[1] M. Pinsky and S. Karlin, An introduction to stochastic modeling (3rd Edition). Academic Press, 1998.
[2] M. L. Puterman, Markov decision processes: Discrete stochastic dynamic programming. John Wiley & Sons, 2014.