深度学习与机器人
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 卷积神经网络及应用介绍

当你第一次接触“卷积神经网络”这个术语时,你会觉得这应该是神经科学或生物学方面的东西。的确如此,卷积神经网络(Convolutional Neural Network,CNN)是动物视觉研究成果的一个衍生物。

早在1906年,谢灵顿(Sherrington)首次使用“感受野”一词用于描述在狗身上引起搔扒反射实验中的皮肤区域。在1938年,Hartline将“感受野”一词用于单个细胞(指青蛙视网膜细胞)中,此后,该词逐渐扩展到听觉、触觉、视觉等多个领域中。在20世纪五六十年代,胡贝尔(Hubel)和威塞尔(Wiesel)通过研究猫和猴子的视觉感受野,提出视觉系统中某一层细胞的感受野是由视觉系统较低层的细胞输入而成的,并且通过这种层级方式,可以组合小而简单的感受野,形成大而复杂的感受野。同时,科学家提出大脑中有两种基本的视觉细胞,即简单细胞(Simple Cell)和复杂细胞(Complex Cell)。实验表明,视觉皮层的网络结构形式是:侧膝体(LGB)→简单细胞→复杂细胞→低阶超复杂细胞→高阶超复杂细胞。低阶超复杂细胞与高阶超复杂细胞之间的神经网络结构类似于简单细胞与复杂细胞之间的网络结构。而且在这种层次结构中,处于较高阶段的细胞通常更倾向于有选择性地对刺激模式的更复杂特征做出反应,同时具有更大的接收场,并且对刺激模式位置的变化更不敏感。在该仿生系统中,假设在更高层中依然存在这种层次结构,处于最高阶的细胞只对特定的刺激模式做出反应,而不受刺激的位置或大小所影响。这就是现代CNN中卷积层(Convolution Layer)+池化层(Pooling Layer)的最初范例及灵感来源。

在1980年,日本学者福岛邦彦(Kunihiko Fukushima)提出了一种称为“Neocognitron”的模式识别机制,并且它是最早被提出的深度学习算法之一,其隐含层由S层(Simple-layer)和C层(Complex-layer)交替构成。其中,S层单元在感受野内对图像特征进行提取,C层单元接收和响应不同感受野返回的相同特征。S层-C层组合能够进行特征提取和筛选,部分实现了卷积神经网络中卷积层和池化层的功能,被认为是启发了卷积神经网络的开创性研究。

卷积神经网络与传统识别方法相比,具有识别速度快、分类准确度高、所需特征少、可以自训练等优点,已被广泛应用于计算机视觉、智能控制、模式识别和信号处理等领域,并在图像目标识别、自然语言处理、语音信号识别等方面取得了极大的成功,已成为深度学习的代表算法之一,推动着人工智能的快速发展。