1.2 机器视觉研究的任务、基本内容、应用领域与困难
1.2.1 任务
机器视觉系统被用于分析图像和生成对被成像物体的描述。这些描述必须包含关于被成像物体的某些信息,用于完成某些特殊的任务。机器视觉系统可以看作一个与周围环境进行交互的部分,它是关于场景的反馈回路中的一个单元,而其他单元则被用于决策与执行决策。
1.2.2 基本内容
机器视觉研究的内容非常广泛,比如以下几个方面。
● 相机标定与图像形成。
● 二值图像分析、边缘检测与图像滤波等低水平图像处理问题。
● 图像分割,纹理描述与分割。
● 纹理分析。
● Shape From X三维视觉。
● 立体视觉。
● 光流与运动分析。
● 目标匹配、检测与识别。
● 3D传感、形状描述、目标跟踪。
● 图像、视频理解。
1.2.3 应用领域
机器视觉在很多领域中已经得到了广泛应用。
1)工业自动化生产线:将图像和视觉技术用于工业自动化,可以提高生产效率和生产质量,同时还可以避免人的疲劳、注意力不集中等带来的误判。具体例子有工业探伤、自动流水线和装配、自动焊接、PCB检查以及各种危险场合工作的机器人等。
2)视觉导航:用于无人驾驶飞机、无人驾驶汽车、移动机器人、精确制导及自动巡航装备捕获目标和确定距离,既可以避免人的参与及由此带来的危险,也可提高精度和速度。无人驾驶汽车技术运用了各种摄像头、激光设备、雷达传感器等,并根据摄像头捕获到的图像及利用雷达和激光设备的相互配合来获取汽车当前的速度、前方的交通标识、所在车道、与周围行人与汽车的距离等信息,并以此来做出加速、减速、停车、左转、右转等判断,从而控制汽车实现无人驾驶。
3)光学字符识别:阅读信上的手写邮政编码和自动识别号码牌。
4)机器检验:快速检验部件质量,用立体视觉在特定的光照环境下测量飞机机翼或汽车车身配件的容差。
5)零售业:针对自动结账通道的物体识别及基于人脸识别的支付功能。
6)医学成像:配准手术前和手术中的成像,或关于人类老化过程中大脑形态的长期研究。
7)人机交互:让计算机借助人的手势、嘴唇动作、躯干运动、表情等了解人的要求而执行指令,这既符合人类的互动习惯,也可增加交互便捷性和临场感。微软公司应用于Xbox360上的Kinect包括了人脸检测、人脸识别与跟踪、动作跟踪、表情判断、动作识别与分类等机器视觉领域的前沿技术。
8)虚拟现实:飞机驾驶员训练、手术模拟、场景建模、战场环境仿真等。
更多的应用可参考David Lowe的工业视觉应用网页(网址为http://www.cs.ubc.ca/spi-der/lowe/vision.html)。总之,机器视觉的应用是多方面的,它会得到越来越广泛的应用。
1.2.4 困难
使机器具有看的能力不是一件容易的事情。那么,机器视觉的研究有哪些困难?对于这个问题,可以从以下六个方面理解。
1)在3D向2D转换过程中损失信息。在相机或者人眼图像获取过程中,会出现3D向2D转换过程中的信息损失。这由针孔模型来近似或者透镜成像模型决定,在成像过程中丢失了深度信息。在投影变换过程中,会将点沿着射线作映射,但不保持角度和共线性。
2)解释。人类可以自然而然地对图像进行解释,而这一任务却是机器视觉要解决的难题之一。当人们试图理解一幅图像时,以前的知识和经验就会起作用,人类的推理能力可将长期积累的知识用于解决新的问题。赋予机器理解能力是机器视觉与人工智能的学科研究者不断努力的目标。
3)噪声。真实世界中的测量都含有噪声,这就需要使用相应数学工具和方法对含有噪声的视觉感知结果进行分析与处理,从而较好地复原真实视觉数据。
4)大数据。图像数据是巨大的,视频数据相应地会更大。虽然技术上的进步使得处理器和内存不足已经不是问题,但是,数据处理的效率仍然是一个重要的问题。
5)亮度测量。在成像传感时,用图像亮度近似表示辐射率。辐射率依赖于辐照度(辐照度与光源类型、强度和位置有关)、观察者位置、表面的局部几何性质和表面的反射特效等。其逆任务是病态的,比如由亮度变化重建局部表面方向。通常病态问题的求解是极其困难的。
6)局部窗口和对全局视图的需要。通常,图像分析与处理的是其中的局部像素,也就是说通过小孔来看图像。通过小孔看世界很难实现全局上下文的理解。20世纪80年代,McCarthy指出构造上下文是解决推广性问题的关键一步,而仅从局部来看或只有一些局部小孔可供观察时,解释一幅图像通常是非常困难的。
1.2.5 机器视觉与人类视觉的关系
机器视觉是研究如何能让计算机像人类那样通过视觉实现“see”的学科。视觉实际上包含两个方面:“视”和“觉”,也就是说机器视觉不仅要捕获场景信息还需要理解场景信息。具体来讲,它是利用相机和计算机代替人眼,使得机器拥有类似于人类的对目标进行分割、分类、识别、跟踪、判别和决策的功能。对人类来说非常简单的视觉任务对于机器却可能异常复杂。在很多方面,机器视觉的能力还远远不如人类视觉,原因在于人类经过大量的学习、认识和了解,已经对现实世界中存在的各种事物有了准确、完善的分类归纳能力,而计算机则缺少相应的过程,就像一个婴儿很难分清不同的人,很难辨别物体的形状和外观、人的表情等,但经过与外界的交互、学习就能逐渐掌握对事物和场景的识别和理解能力。让计算机达到人类的视觉能力需要一个完善的学习过程。此外,生物的眼睛经历了5亿多年的进化,视觉系统不断完善,而相机的出现才短短一百多年。
在图像理解等高级机器视觉问题上,计算机的视觉能力通常低于人类。人类及其他生物的眼睛具有的强大功能,所以机器视觉研究过程中借鉴了生物视觉的功能原理,比如Gabor滤波器的频率和方向表达同人类视觉系统类似,卷积神经网络的构建参考了人类大脑提取视觉信息的方式。