更新时间:2019-10-11 15:10:40
封面
版权信息
前言
第1章 初识强化学习
1.1 强化学习及其关键元素
1.2 强化学习的应用
1.3 智能体/环境接口
1.4 强化学习的分类
1.5 如何学习强化学习
1.6 案例:基于Gym库的智能体/环境交互
1.7 本章小结
第2章 Markov决策过程
2.1 Markov决策过程模型
2.2 Bellman期望方程
2.3 最优策略及其性质
2.4 案例:悬崖寻路
2.5 本章小结
第3章 有模型数值迭代
3.1 度量空间与压缩映射
3.2 有模型策略迭代
3.3 有模型价值迭代
3.4 动态规划
3.5 案例:冰面滑行
3.6 本章小结
第4章 回合更新价值迭代
4.1 同策回合更新
4.2 异策回合更新
4.3 案例:21点游戏
4.4 本章小结
第5章 时序差分价值迭代
5.1 同策时序差分更新
5.2 异策时序差分更新
5.3 资格迹
5.4 案例:出租车调度
5.5 本章小结
第6章 函数近似方法
6.1 函数近似原理
6.2 线性近似
6.3 函数近似的收敛性
6.4 深度Q学习
6.5 案例:小车上山
6.6 本章小结
第7章 回合更新策略梯度方法
7.1 策略梯度算法的原理
7.2 同策回合更新策略梯度算法
7.3 异策回合更新策略梯度算法
7.4 策略梯度更新和极大似然估计的关系
7.5 案例:车杆平衡
7.6 本章小结
第8章 执行者/评论者方法
8.1 同策执行者/评论者算法
8.2 基于代理优势的同策算法
8.3 信任域算法
8.4 重要性采样异策执行者/评论者算法
8.5 柔性执行者/评论者算法
8.6 案例:双节倒立摆
8.7 本章小结
第9章 连续动作空间的确定性策略
9.1 同策确定性算法
9.2 异策确定性算法
9.3 案例:倒立摆的控制
9.4 本章小结
第10章 综合案例:电动游戏
10.1 Atari游戏环境
10.2 基于深度Q学习的游戏AI
10.3 本章小结
第11章 综合案例:棋盘游戏
11.1 双人确定性棋盘游戏
11.2 AlphaZero算法
11.3 棋盘游戏环境boardgame2
11.4 AlphaZero算法实现
11.5 本章小结
第12章 综合案例:自动驾驶
12.1 AirSim开发环境使用
12.2 基于强化学习的自动驾驶
12.3 本章小结