强化学习课程笔记
欢迎
正在初始化搜索引擎
wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
主页
Box
第一章
第二章
第三章
第四章
第五章
第六章
强化学习课程笔记
wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
主页
主页
Box
Box
介绍
第一章
第一章
介绍
1.1-网格世界
1.2-状态和行动
1.3-状态转移
1.4-策略
1.5-奖励
1.6-轨迹、回报、回合
1.7-马尔科夫决策过程
1.8-总结
第二章
第二章
介绍
2.1-为什么回报很重要?
2.2-如何计算回报?
2.3-状态值
2.4-贝尔曼方程
2.5-贝尔曼方程的例子
2.6-贝尔曼方程的矩阵形式
2.7-根据贝尔曼方程求解状态值
2.8-从状态值到行动值
2.9-总结
第三章
第三章
介绍
3.1-如何改进策略
3.2-最优状态值和最优策略
3.3-贝尔曼最优公式
3.4-从贝尔曼最优公式中求解最优策略
3.5-影响最优策略的因素
3.6-总结
第四章
第四章
介绍
4.1-值迭代
4.2-策略迭代
4.3-截断策略迭代
4.4-总结
第五章
第五章
介绍
5.1-启发示例:期望值估计
5.2-MC Basic:最简单的基于蒙特卡洛的算法
5.3-MC Exploring Starts算法
5.4-MC-Greedy算法
5.5-探索与利用:以Greedy策略为例
5.6-总结
第六章
第六章
介绍
6.1-启发示例:期望值估计
6.2-罗宾斯-门罗算法
6.3-Dvoretzky定理
6.4-随机梯度下降
6.5-总结
欢迎
这是一份强化学习课程笔记。
回到页面顶部