深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

第1章 什么是强化学习

强化学习(Reinforcement Learning,RL)机器学习(Machine Learning,ML)的一个分支,它能随着时间的推移,自动学习最优决策。这是许多科学和工程领域普遍研究的一个问题。

在瞬息万变的世界中,如果考虑时间的因素,即使是静态的输入输出问题也会变成动态问题。例如,想象一下你想要解决一个宠物图片分类(一共有两个目标类:狗和猫)的简单监督学习问题。你收集了训练数据集并使用深度学习(Deep Learning,DL)工具作为分类器。一段时间后,收敛的模型表现得很出色。这很棒!于是你将其部署并运行了一段时间。但是,当你从某个海滨度假胜地回来后,发现狗狗间流行的装扮方式发生了改变,因此大部分的查询都返回了错误的分类结果,你也因此需要更新你的训练图片,并重复之前的过程。这就不美妙了!

前面的示例旨在说明即使是简单的ML问题也有隐藏的时间维度。这常被忽视,那么它在生产系统中就可能会成为一个问题。RL很自然地将额外的维度(通常是时间,但并非必须是时间)并入学习方程式。这让RL更接近于人们所理解的人工智能(Artificial Intelligence,AI)

在本章中,我们会详细讨论RL,你将会熟悉以下内容:

  • RL和其他ML方法(监督学习(supervised learning)非监督学习(unsupervised learning))的关联和区别。
  • RL有哪些主要形式,它们之间的关系是什么样的。
  • RL的理论基础——马尔可夫决策过程。