2.3 本章小结
图2-30 总结了本章介绍的经典图像分类模型。不同的模型大体上可以分为不同的系列,图中用不同的颜色进行表示,LeNet-5和AlexNet是重要的奠基性工作,之后延展出了VGGNet、Inception系列、ResNet系列、MobileNet系列和ShuffleNet 系列。
图2-30 经典图像分类模型
图2-31 比较了历年ImageNet 竞赛冠军(2014年还包括亚军)的错误率和层数,2012年的AlexNet是首个基于深度卷积神经网络的冠军网络,其前5错误率较 2011年的冠军取得了显著下降。ZFNet(Zeiler & Fergus,2014)是2013年ImageNet 竞赛分类任务的冠军网络,其网络结构上的创新不大,主要是基于AlexNet 调整了一些卷积层的超参数。(Zeiler & Fergus,2014)的意义在于提出了网络可视化的方法,对于理解深度卷积神经网络有很大帮助。VGGNet 虽然是2014年的ImageNet 竞赛分类任务的亚军网络,但是该网络的重要性和影响力都不可忽视,因此也列举了出来。2016年ImageNet 竞赛分类任务的冠军网络在网络结构上的创新不大,主要是将 Inception、ResNet、WRN 等多个网络进行了集成。
图2-31 历年ImageNet 竞赛优胜模型前5错误率和层数
图2-32 总结了本章介绍的经典时序模型。尽管 RNN、LSTM和GRU的网络结构差别很大,但是它们的基本计算单元是一致的,都是对做一个线性映射加 Tanh 激活函数,见图2-26、图2-28和图2-29的虚线框部分。它们的区别在于如何设计额外的门控机制控制梯度信息传播用以缓解梯度消失现象。LSTM 用了3个门,GRU 用了2个门,那能不能再少呢?MGU(Minimal Gate Unit,最小门单元)(Zhou et al.,2016a)尝试对这个问题做出回答,它只有一个门控单元。最后留个小练习,参考LSTM和GRU的例子,读者能否用“三次简化一张图”的方法来分析一下 MGU的原理呢?
图2-32 经典时序模型
[1]有的资料会将其翻译成数据增强,但是其主要目的是从有限的数据中产生更多的数据,而非更强的数据。