深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

4.6 总结

本章介绍了交叉熵方法,尽管它有局限性,但简单且功能强大,并将其应用在了CartPole环境(取得了巨大的成功)和FrozenLake环境(效果还行)。另外,还讨论了RL方法的分类,这会在本书的其余部分多次引用,因为解决RL问题的不同方法会有不同特性,从而影响了它们的适用性。

本章结束了本书的介绍性部分。下一部分将转向更系统的RL方法研究,并讨论基于价值的系列方法。接下来的章节将探索更复杂但功能更强大的深度RL工具。