深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

4.1 RL方法的分类

交叉熵方法属于无模型基于策略的方法类别。这些都是新概念,所以我们花一点时间来讨论一下它们。所有的RL方法可以被分类成以下几种:

  • 无模型或基于模型。
  • 基于价值或基于策略。
  • 在线策略(on-policy)或离线策略(off-policy)。

还可以根据其他方式对RL方法进行分类,但是目前我们还是关注前面这三种分类方式。我们来定义这些方法,因为根据问题的不同细节,可能会导致选择不同的方法。

术语无模型表示该方法不构建环境或奖励的模型,直接将观察和动作(或者和动作相关的价值)连接起来。换句话说,智能体获取当前的观察结果并对其进行一些计算,计算结果就是它应该采取的动作。相反,基于模型的方法试图预测下一个观察或奖励会是什么。根据它的预测,智能体试图选择最好的动作来执行,通常会进行多次这样的预测以看到更远的未来。

两种方法都有优势和劣势,但在确定性环境中通常都会使用基于模型的方法,例如用于具有严格规则的棋盘游戏。另一方面,无模型的方法通常更容易训练,因为很难对有大量观察的复杂环境建立良好的建模。本书描述的所有方法均来自无模型类别,因为这些方法在过去几年中一直是最活跃的研究领域。直到最新,研究人员才将两种方法混合使用,意图同时获得两方面的收益(例如,DeepMind发表的智能体的想象力的论文。这个方法会在第22章中讨论)。

另外,基于策略的方法直接计算智能体的策略,即智能体在每一步应该执行什么动作。策略通常被表示成可用动作的概率分布。方法也可以是基于价值的。在这种情况下,智能体将计算每个可能的动作的价值,然后选择价值最大的动作,而不是计算动作的概率。两种方法都同样受欢迎,我们将在本书的下一部分讨论基于价值的方法。基于策略的方法将会是第三部分的主题。

第三个重要的分类是在线策略离线策略。我们会在本书第二部分和第三部分讨论它们的区别,就目前而言,知道离线策略是用来学习历史数据(上一版本的智能体获得的数据、人类记录的数据或同一智能体几个片段之前获得的数据)的就够了。

交叉熵方法是无模型的、基于策略的在线策略的方法,这意味着:

  • 它不构建环境的任何模型,只告诉智能体每一步需要做什么。
  • 它计算智能体的策略。
  • 它从环境中获取新数据。