1.6 案例：基于Gym库的智能体/环境接口_强化学习：原理与Python实战-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.6 案例：基于Gym库的智能体/环境接口

Gym库（网址为https://www.gymlibrary.dev/）是OpenAI推出的强化学习实验环境库。它是目前最有影响力的强化学习环境库。它用Python语言实现了离散时间智能体/环境接口中的环境部分。整个项目是开源免费的。在这一节，我们将安装和使用Gym库，并通过一个完整的实例来演示智能体与环境的交互。

Gym库实现了上百种环境，还支持自定义环境的扩展。Gym库内置的环境包括以下几类。

❑简单文本环境：包括几个用文本表示的简单游戏。

❑经典控制环境：包括一些简单几何体的运动，常用于经典强化学习算法的研究。

❑二维方块（Box2D）环境：基于Box2D库开发的环境。这些环境利用Box2D库来构造物体、提供图形化界面。

❑Atari游戏环境：包括数十个Atari 2600游戏，它们有像素化的图形界面，希望玩家尽可能争夺高分。

Gym的代码在GitHub上开源，网址为https://github.com/openai/gym。

1.6.1 安装Gym库

Gym库在Windows系统、Linux系统和macOS系统上都可以安装。本节展示如何在Anaconda 3环境里安装Gym库。

安装Gym时，可以选择只进行最小安装，也可以进行更完整的安装。本书大多数内容只需要Gym及其简单文本环境、经典控制环境和Atari子包。安装Gym和这些环境的方法是在安装环境（比如Anaconda 3的管理员模式）里输入下列命令：

注意：本书后续章节的实战环节将反复使用到Gym库（见表1-1），请务必安装Gym库。上述安装命令已经可以完全满足本书前9章对Gym库的需求。后续章节用到其他扩展库时会介绍更多的安装方法。Gym库也在不断更新中，推荐按需安装，不需要追求大而全。完整的安装方法会在GitHub上更新。

表1-1 本书实例的智能体和环境依赖的主要Python扩展库

1.6.2 使用Gym库

本节介绍Gym库的使用。

要使用Gym库，首先要导入Gym库。导入Gym库的方法如下：

在导入Gym库后，可以通过gym.make()函数来得到环境对象。每一个环境任务都有一个ID，它是形如“Xxxxx-vd”的Python字符串，如'CartPole-v0'、'Taxi-v3'等。任务名称最后的部分表示版本号，不同版本的任务可能有不同的行为。获得任务'CartPole-v0'的一个环境对象的代码为：

想要查看当前Gym库已经注册了哪些任务，可以使用以下代码：

每个任务都定义了自己的观测空间和动作空间。环境env的观测空间用env.observation_space表示，动作空间用env.action_space表示。Gym库提供了gym.spaces.Box类来表示空间，空间中的元素类型为np.array。元素个数有限的空间也可以用gym.spaces.Discrete类表示，空间中的元素类型为int。Gym还定义了其他空间类型。例如，环境'CartPole-v0'的观测空间是Box(4,)，表示观测可以用形状为(4,)的np.array对象表示；环境'CartPole-v0'的动作空间是Discrete(2)，表示动作取值自{0,1}。对于Box对象表示的空间，可以用成员low和high查看每个浮点数的取值范围，对于Discrete对象表示的空间，可以用成员n查看有几个可能的取值。

接下来使用环境对象env。首先我们初始化环境对象。初始化环境对象env的代码为：

该调用能返回初始观测observation和信息info。观测的类型是和env.observation_space兼容的。比如，'CartPole-v0'的observation_space是Box(4,)，所以观测的类型是形状为(4,)的np.array对象。

接下来我们使用环境对象的step()方法来完成每一次的交互。step()方法有一个参数，是动作空间中的一个动作。该方法返回值包括以下五个部分。

❑观测（observation）：表示观测，与env.reset()第一个返回值的含义相同。

❑奖励（reward）：float类型的值。

❑回合终止指示（terminated）：bool类型的数值。Gym库里的实验环境大多都是回合制的。这个返回值可以指示在当前动作后回合是否结束。如果回合结束了，可以通过env.reset()开始下一回合。

❑回合截断指示（truncated）：bool类型的数值。无论是回合制任务还是连续型任务，我们都可以限制回合的最大步数，使其成为一个回合步数有限的回合制任务。当一个回合内的步数达到最大步数时，回合截断，该指示为True。还有一些情况，由于环境实现的限制，回合运行到某个步骤后资源不够了（比如内存不够了，或是超出了预先设计好的数据范围），这时只好对回合进行截断。

❑其他信息（info）：dict类型的值，含有一些调试信息。不一定要使用这个信息。与env.reset()第二个返回值的含义相同。

每次调用env.step()只会让环境前进一步。所以，env.step()往往放在循环结构里，通过循环调用来完成整个回合。

在env.reset()或env.step()后，可以用下列语句以图形化的方法显示当前环境。

环境使用完后，可以使用下列语句关闭环境。

注意：如果你绘制了实验的图形界面窗口，那么关闭该窗口的最佳方式是调用env.close()。直接试图关闭图形界面窗口可能会导致内存不能释放，甚至会导致死机。

学术界在测试智能体在Gym库中某个任务的性能时，一般最关心100个回合的平均回合奖励。至于为什么是100个回合而不是其他回合数（比如128个回合），完全是习惯使然，没有什么特别的原因。对于有些环境，还会指定一个参考的回合奖励值，当连续100个回合的奖励大于指定的值时，认为这个任务被解决了。但是，并不是所有的任务都指定了这样的值。对于没有指定值的任务，就无所谓任务被解决了或是没有被解决。

对于有参考回合奖励参考阈值的环境，回合奖励参考阈值存储在下列变量中：

在线内容：本书GitHub给出了Gym库部分内容的源码解读，供学有余力的读者查阅。本节涉及的类包括gym.Env类、gym.space.Space类、gym.space.Box类、gym.space.Discrete类、gym.Wrapper类、gym.wrapper.TimeLimit类。

1.6.3 小车上山

本节通过一个完整的例子来学习如何与Gym库中的环境交互。本节选用的例子是一套经典的控制任务：小车上山。这套任务有两个版本，版本MountainCar-v0的动作空间是有限集，版本MountainCarContinuous-v0的动作空间是连续动作空间。本节主要关心交互的Gym的API的使用，而不详细介绍这个任务的内容及其求解方法。任务的具体描述和求解方式会在后文中介绍。

首先我们来关注有限动作空间的版本MountainCar-v0。每接触到一个新的任务，一定要试图了解任务。首先要了解的就是这个任务的观测空间是什么、动作空间是什么。我们可以用代码清单1-1查看这个任务的观测空间和动作空间。

值得一提的是，本书使用logging模块来打印，而不是直接使用print()函数。logging模块在输出时可以同时输出时间戳，有助于了解程序运行时间。

代码清单1-1 查看MountainCar-v0的观测空间和动作空间

上述代码的运行结果为：

运行结果告诉我们：

❑动作空间action_space是Discrete（3），所以动作是取自{0,1,2}的int型数值。

❑观测空间observation_space是Box(2,)，所以观测是形状为(2,)的浮点型np.array。

❑每个回合的最大步数max_episode_steps是200。

❑参考的回合奖励值reward_threshold是-110，如果连续100个回合的平均回合奖励大于-110，则认为这个任务被解决了。

接下来我们准备一个和环境交互的智能体。Gym里面一般没有智能体，智能体需要我们自己实现。代码清单1-2给出了一个针对这个任务的智能体ClosedFormAgent类。智能体的step()方法实现了决策功能。ClosedFormAgent类是一个比较简单的类，它只能根据给定的数学表达式进行决策，并且不能有效学习，所以它并不是一个真正意义上的强化学习智能体类。但是，用于演示智能体和环境的交互已经足够了。

代码清单1-2 根据指定确定性策略决定动作的智能体，用于MountainCar-v0

接下来我们试图让智能体与环境交互。代码清单1-3中的play_episode()函数可以让智能体和环境交互一个回合。这个函数可以接受以下参数。

❑参数env是环境类。

❑参数agent是智能体类。

❑参数seed可以是None或是一个int类型的变量，用作初始化回合的随机数种子。

❑参数mode是None或是str类型的变量'train'。如果是'train'，则试图让智能体进行学习。当然，如果智能体没有学习功能，这个参数就没有作用。

❑参数render是bool类型变量，指示在运行过程中是否要图形化显示。如果函数参数render为True，那么在交互过程中会调用env.render()以显示图形化界面。

这个函数返回episode_reward和elapsed_step，它们分别是float类型和int类型，表示智能体与环境交互一个回合的回合总奖励和交互步数。

代码清单1-3 智能体和环境交互一个回合的代码

借助于代码清单1-1给出的环境、代码清单1-2给出的智能体和代码清单1-3给出的交互函数，我们可以用下列代码让智能体和环境交互一个回合，并在交互过程中图形化显示。交互完毕后，可用env.close()关闭图形化界面。然后，我们使用了Python语言内置的logging模块来输出运行的结果。您也可以使用print()函数来输出结果。不过，我还是推荐您使用logging模块来输出，因为它能帮助我们了解每个输出语句是什么时候输出的，让我们更好地估计程序的运行时间。很多强化学习的算法运行时间很长，了解输出的时间便于我们估计程序的运行进度。

为了系统性地评估智能体的性能，代码清单1-4求了连续100个回合交互的平均回合奖励。ClosedFormAgent类对应的策略的平均回合奖励大概在-103，超过了奖励阈值-110。所以，智能体ClosedFormAgent解决了这个任务。

代码清单1-4 运行100回合交互求平均回合奖励

接下来我们来看连续动作空间的任务MountainCarContinuous-v0。我们将代码清单1-1略作改动，使用代码清单1-5导入环境。

代码清单1-5 查看MountainCarContinuous-v0的观测空间和动作空间

这样得到的输出为：

这个环境的动作空间是Box(1,)，动作是形状为(1,)的np.array对象；观测空间仍然是Box(2,)，观测是形状为(2,)的np.array对象。回合最大步数变为999步。成功求解的阈值变为90，即需要在连续100回合的平均回合奖励超过90。

不同的任务往往需要使用不同的智能体来求解。代码清单1-6给出了用于求解MountainCarContinuous-v0的智能体。在成员step()中，观测observation分解为位置position和速度velocity两个分量，然后用这两个分量决定的大小关系决定采用何种动作action。我们可以再用代码清单1-3和代码清单1-4来测试这个智能体的性能，可以知道这个智能体平均回合奖励大概在93左右，大于阈值90。所以，代码清单1-6给出的这个智能体成功求解了MountainCarContinuous-v0任务。

代码清单1-6 用于求解MountainCarContinuous-v0的智能体