深度学习与机器人
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 图像识别的任务

2.2.1 视觉感知

视觉信息的处理始于人眼,人类视觉系统主要由角膜、虹膜、晶状体及视网膜组成,如图2.7所示。

图2.7 人类视觉系统的结构示意图

人类视觉系统的信息处理机制是一个高度复杂的过程,科学家们从生物学、解剖学、神经生理学、心理物理学等方面做了大量的研究,接下来将主要说明视觉关注机制、亮度及对比敏感度、视觉掩盖、视觉内在推导机制这4个特性。

(1)视觉关注机制(Visual Attention):在纷繁复杂的外界场景中,人类视觉总能快速定位重要的目标区域并进行细致的分析,而对其他区域仅进行粗略分析甚至忽视。视觉关注可由两种模式引起。一种是由客观内容驱动的自底向上(bottom-up)关注模式,那些与周围区域具有较大差异性的目标容易吸引观察者的视觉关注;另一种是由主观命令指导的自顶而下(top-down)关注模式,该模式可将视觉关注强行转移到某一特定区域。

(2)亮度及对比敏感度:人眼对光强度具有某种自适应的调节功能,即能通过调节感光灵敏度来适应范围很大的亮度,同时这也导致了对绝对亮度的判断较差。因此人眼对外界目标亮度的感知更多依赖于目标跟背景之间的亮度差。换言之,人类视觉系统对亮度的分辨能力是有限的,只能分辨具有一定亮度差的目标物体,而差异较小的亮度则会被认为是一致的;人类视觉系统非常关注物体的边缘,往往通过边缘信息获取目标物体的具体形状、解读目标物体等。由于视觉系统具有鲁棒性,无法分辨一定程度以内的边缘模糊,这种对边缘模糊的分辨能力则称为对比灵敏度。

(3)视觉掩盖:视觉信息间的相互作用或相互干扰将引起视觉掩盖效应。常见的掩盖效应如下所示。

①由于边缘存在强烈的亮度变化,人眼对边缘轮廓敏感,而对边缘的量度误差不敏感,即对比度掩盖;

②图像纹理区域存在较大的亮度以及方向变化,人眼对该区域信息的分辨率下降,即纹理掩盖;

③视频序列相邻帧间内容的剧烈变动(如目标运动或者场景变化),导致人眼分辨率的剧烈下降,即时域的运动掩盖及切换掩盖。

(4)视觉内在推导机制:最新的人脑研究指出,人类视觉系统并非原原本本地去理解进入人眼的视觉信号,而是存在一套内在的推导机制(Internal Generative Mechanism)去解读输入的视觉信号。