上QQ阅读APP看书,第一时间看更新
6.5 可以尝试的事情
如果你感到好奇并想自己尝试本章的内容,那么这里列出了一些可供探索的方向。不过请注意,它们可能会花费很多时间,并可能在进行实验的过程中让你感到沮丧。但是,从实操角度来看,这些实验可以真正帮你掌握知识。
- 尝试Atari系列中的其他游戏,例如Breakout、Atlantis或River Raid(我小时候最喜欢的游戏)。这可能需要调整超参数。
- 还有另一个表格环境可作为FrozenLake的替代,Taxi,它模拟需要接载乘客并将其带到目的地的出租车司机。
- 使用Pong超参数。有可能训练得更快吗?OpenAI声称它可以利用asynchronous advantage actor-critic(A3C)方法(本书第三部分的主题)在30分钟内解决Pong问题。DQN可能也可以做到。
- 可以使DQN训练代码更快吗?OpenAI Baselines项目在GTX 1080 Ti上使用TensorFlow展示了350 FPS的速度。因此,似乎也可以优化PyTorch代码。我们将在第8章中讨论此主题,但与此同时,你也可以自己做实验。
- 在视频记录中,你可能会注意到平均得分约为零的模型运行得很好。实际上,给人的印象是这些模型表现得要好于平均得分为10~19的模型。这可能是由于特定游戏过拟合导致的。你能解决这个问题吗?也许有可能使用一种生成对抗网络式方法来使一个模型与另一个模型对抗?
- 你能获得平均得分为21的终极Pong支配者模型吗?这应该不太难,使学习率下降就是一个明显的方法。