深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

第4章 交叉熵方法

上一章介绍了PyTorch。本章将结束本书的第一部分,也将介绍一种强化学习(RL)方法:交叉熵。

尽管事实上诸如深度Q-network(Deep Q-network,DQN)或advantage actor-critic等方法更出名,用的人更多,但是交叉熵方法还是有它独有的优点。首先,交叉熵方法很简单,因此很容易使用。例如,它在PyTorch中的实现代码少于100行。

其次,这个方法比较容易收敛。如果环境很简单,没有复杂且多样的策略需要探索及学习,也不是片段很短又有很多奖励,那么交叉熵方法通常都表现得很好。当然,很多实际问题都不在这个范围,但有时确实存在这样的问题。在这些场景下,交叉熵方法(单独或作为较大系统的一部分)可能是最理想的选择。

本章包含:

  • 交叉熵方法的实践部分。
  • 交叉熵方法在两个Gym环境(熟悉的CartPole和FrozenLake网格世界)的应用。
  • 交叉熵方法的理论背景。本节是可选部分,但是如果想要更好地理解为什么这个方法能起作用,建议深入研究一下,阅读它要求读者有更多概率论和统计学的知识。