2.1 图像处理的发展过程[1,2]
图像处理是个古老的话题。以记录和宣传为目的的图像处理,可以追溯到西班牙阿尔塔米拉石窟壁画的旧石器时代。在以埃及、美索不达米亚为首的古代文明中能够看到很多实例。中国的绘画史也可以上溯到原始社会的新石器时代,距今至少有七千余年的历史。工匠通过手工作业进行绘画和刻制版画,对雕刻技术和图像处理技术的发展做出了独特的贡献。从图像信息处理技术角度来说,活字印刷术(1445年左右)和复印机的发明(1839年左右)可以认为是图像处理的起点,这些技术奠定了当今的电子排版、扫描仪、摄像机、照相机等电子设备的技术基础。现在所谓的图像处理一般是指通过电子设备进行的图像处理,处理的图像形式由模拟图像发展到了数字图像。
1925年出现了机械扫描式电视,1928年出现了电子扫描式显像管接收器,1933年出现了电子扫描式摄像管成像器,再到当今的电子扫描技术,这些共同构筑了电视技术的基础。电子设备的图像最初都是模拟图像,包括模拟电视机、模拟照相机、模拟摄像机、X线照相机等,这些都是基于电子扫描式成像管技术,其记录材料主要是胶片,由电子显像管显示。模拟图像处理的内容主要有:①针对图像的输入、输出、记录、表示等的处理;②利用胶卷和镜头的特性,对照片进行对比强化、边缘强化、浓度特性变化等显像和定影操作的处理;③通过模拟电路,突出强调电视画面的边缘、抑制重像等。这些处理很多也都用在了当今的数字图像处理中。
20世纪40年代出现了数字计算机,1964年第3代计算机IBM360、1965年迷你计算机DEC/PDP-8相继问世。随着计算机技术的迅速发展,数字图像处理所必需的计算机环境得到了很大的改善。
数字图像处理的应用开始于人造卫星图像的处理。1965年美国国家航空航天局(NASA)发表了Mariner4号卫星拍摄的火星图像,1969年登陆月球表面的阿波罗11号传回了月球表面的图像,这些都是数字图像处理的空前应用。在该领域,由于环境恶劣,传输的图像画质非常低,需要经过庞大的数字图像处理后才能使用。
与此同时,数字图像处理被尝试应用于医用领域。例如,开展了显微镜图像的计量测定、诊断、血球分类、染色体分类、细胞诊断的研究。另外,1965年左右还初次尝试了胸部X光照片的处理,包括:改善X光照片的画质、检验出对象物体(区分物体)、提取特征、分类测量以及模式识别等。然而,与人造卫星图像不同,因为这些图像是模拟图像,首先需要进行数字化处理,由于当时处于基础性研究阶段,还存在很多困难。该时期,在物理学领域自动解析了加速器内粒子轨迹的照片。
20世纪60年代后半期,数字图像处理开始应用于一般化场景和三维物体。该时期的研究工作以美国麻省理工学院人工智能研究所为中心展开。理解电视摄像机输入简单积木画面的“积木世界”问题,成为早期人工智能领域中的一个具有代表性的研究课题。随后该领域出现了图像分析、计算机视觉、物体识别、场景分析、机器人处理等研究课题。这一时代的二维模拟识别研究以文字识别为中心,是一项庞大的研究工程。日本在1968年采用邮政编码制度而研制的国内文字识别装置,成为加快文字识别研究进展的一大主要因素。其中产生的很多算法,例如,细线化、临界值处理、形状特征提取等,成为日后图像处理基本算法的重要组成部分,并被广泛使用。1968年,出现了最早的有关图像处理的国际研讨会论文集。
20世纪70年代初期,数字图像处理开始加速发展,出现了医学领域的计算机断层摄像术(computed tomography,CT)和地球观测卫星。这些从成像阶段开始就进行了复杂的数字图像处理,数据量庞大。CT是将多张投影图像重构成截面图像的仪器,其数理基础拉东变换(radon transform)是于1917年由拉东提出,50年后随着计算机及其相关技术的进步,开始了实用化应用。CT不仅对医学产生了革命性影响,也对整个图像处理技术产生了很大的促进作用,同时开辟了获取立体三维数字图像的途径。大约20年后,出现了利用多幅CT图像在计算机内进行人体三维虚拟重建的技术,可以自由移动三维图像的视角,从任意方位观察人体,帮助进行诊断和治疗。
地球观测卫星以一定周期在地球上空轨道运行,将地球表面发出的反射能量,通过不同光谱波段的传感器进行检测,将检测数据连续传送回地面,还原成详尽的地球表面图像之后,对全世界公开,并开发了提取其信息的各种算法。此后,又形成了将海洋观测卫星、气象观测卫星等的图像进行合成的遥感图像处理,并广泛应用于地质、植保、气象、农林水产业、海洋、城市规划等领域。
CT图像和遥感图像在应用层面都具有极其重要的意义,为了对其进行处理,开发出了非常多的算法。例如,对于CT图像,首先开发出了图像重构算法,通过空间频率处理以及灰度等级处理来改善画质,还开发出了各种图像测量算法。在此基础上,进一步开发出了表示人体三维构造的立体三维图像处理的算法。关于遥感图像,出现了图像几何变换、倾斜校正、彩色合成、分类、结构处理、领域分割等处理算法。随着技术的发展,CT图像和遥感图像的精度也在不断提高,现在CT的分辨率可以达到0.5mm以下,卫星观察地球表面的分辨率达到了1m以下。
在其他领域,为了实现检测自动化、节省劳动力和提高产品质量,规模生产应用开始进入实用化阶段。例如,图像处理技术在集成电路的设计和检测方面实现了大规模应用。随着研究的不断投入,推进了其实用化进程。然而,从产业应用的整体来看,实用化的成功例子比较有限。与此同时,以物体识别和场景解析为目的的应用开启了对一般三维场景进行识别、理解的人工智能领域的研究。但是,物体识别、场景解析的问题比预想的要难,即使到现在实用化的应用例子也很少。
与前述文字识别紧密相关的图纸、地图、教材等的办公自动化处理,也成为图像处理的一个重要领域。例如,传真通信和复印机就使用了二值图像的压缩、编码、几何变换、校正等诸多算法。日本在1974年开始了地图数据库的开发工作,目前这些技术积累被广泛应用于地理信息系统(geographical information system,GIS)和汽车导航等领域。
在医学领域,除了前述的CT以外,首先是实现了血球分类装置的商业化,并开始试制细胞诊疗装置,这些作为早期模拟图像识别的实用化装置引起了广泛关注。另外,还进行了根据胸部X光照片来诊断硅肺病、心脏病、结核、癌症的计算机诊断研究。同时,超声波图像、X光图像、血管荧光摄影图像、放射性同位素(radio isotope,RI)图像等的辅助诊断也成了研究对象。在这些研究中,开发出了差分滤波、距离变换、细线化、轮廓检测、区域生成等灰度图像处理的相关算法,成为之后图像处理的算法基础。
硬件方面,在20世纪70年代中有了几项重要的发展。例如,帧存储器的出现及普及为图像处理带来了便利。另一方面,数字信号处理器(digital signal processor,DSP)的发展,开创了包括快速傅里叶变换(fast fourier transform,FFT)在内的高级处理的新途径。随着CCD(charge coupled device)图像输入装置的开发与进步,出现了利用激光测量距离的测距仪。而在计算机技术方面,20世纪70年代前半期,美国Intel公司的微软处理器i4004和i8008相继登场,并与随后出现的微软计算机(Altair 1975年、AppleⅡ和PET 1977年、PC8001 1979年)相连接。1973年开发出了被称为第一个工作站的美国Xerox公司的Alto。1976年大型超级计算机Cray-1的问世,扩大了处理器规模和能力的选择范围,对开发各种规模的图像处理系统做出了贡献。
软件方面,并行处理、二值图像处理等基础性算法逐步提出。在这些基础理论中,图像变换(如离散傅里叶变换、离散正交变换等)、数字图形几何学以及以此为基础的诸多方法形成了体系,并且开发出了一些具有通用性的图像处理程序包。
总之,该时期图像处理的价值和发展前景被广泛认知,各个应用领域认识到了其用途,纷纷开始了基础性研究,到了后半期就进入了全面铺开的时代。尤其是基础方法、处理程序框架、算法等软件和方法论的研究,进入了快速发展时期。实际上,现在被实用化的领域或继续研究中的许多问题基本上在这一时代已经被解决了。支撑其发展的基础性方法大多始于20世纪六七十年代。
20世纪70年代广泛展开的图像处理,到了20世纪80年代进一步快速普及,前面介绍的图像处理的几个应用领域进入到实用化、大众化阶段。工作站、内存以及CCD输入装置的组合,形成了当时在性价比上更为优秀的专用系统,使得多样化的图像处理系统实现了商业化,很多通用软件工具被开发出来,许多用户的技术人员也能够开发各种问题的处理算法。20世纪80年代,图像处理硬件的核心是搭载有专用图像处理设备的工作站。
进入20世纪90年代,迅速在全球普及的因特网(internet)对图像处理产生了不小的影响。而且,20世纪90年代,由于个人计算机性能的飞跃性提升及其应用的广泛普及,获得了前所未有的强大信息处理能力和多种多样的图像获取手段,在我们所能到达的任何地方都可以获得与以前超级计算机相同的图像处理环境。由于大量图像要通过网络高速传输,促使图像编码、压缩等研究工作活跃起来,且JPEG(joint photographic experts group)、MPEG(motion picture experts group)等图像压缩方式制定了世界统一标准。现如今,在家中通过英特网络就可以自由访问各种Web地址,下载自己想要的图像。例如,美国航天局(NASA)的Web主页上公开了由人造卫星拍摄到的各种行星图像,任何人均可通过英特网络自由访问,并且当发射火箭时可以实时观看到动画。
20世纪90年代后半期,随着高性能廉价的数字照相机和图像扫描仪的普及,数字图像的处理也得到了进一步普及。当今,广泛普及的计算机环境使声音、文字、图像、视频都可以自由转换成为数字数据,进入了多媒体处理时代。
20世纪90年代的另外一个重要事件就是出现了虚拟现实(virtual reality,VR),其设计理念和实质内容从20世纪90年代初开始得到了世界承认。虚拟现实的目的不只是将“在那里记录的事物让世界看到和理解”,而是以“记录、表现事物,体验世界”为目的,概念性地改变了图像信息的利用方法。
在一些领域,随着基础性理论的建立,逐步形成了体系,并得到确认。例如,包含三维数字图像形式的数字几何学、单目和双目生成图像、立体光度测定法等在内,人们根据三维空间中的物体(或场景)和将它们以二维平面形式记录的二维图像间的关系,从形状以及灰度分布这两方面进行了理论性阐述,并相继提出了以此为基础的可行图像解析方法。与此同时,还明确了记录三维空间物体运动图像时间系列(视频图像)的性质以及视频图像处理的基本方法。另外,随着对象变得复杂,强调“利用与对象相关知识”的重要性,即提倡采用知识型计算机视觉,并开展了对象相关知识的利用方法和管理方法等研究和试验。另一方面,在这一时期还尝试开展了图像处理方法自身知识库化的工作,开发出了各种方式的图像处理专业系统。针对人工智能的解析空间探索、最佳化、模型化、学习机能等诸多问题,出现了作为新概念、新方法的分数维、混沌、神经网络、遗传算法等技术工具。同时,图像处理以感性信息为新的视点,开始了感性信息处理的研究工作。
在应用领域,医用图像处理在20世纪80年代初期不再使用X射线,而改用CT的核磁共振成像(magnetic resonance imaging,MRI)实现了实用化。从20世纪80年代末至20世纪90年代,超高速X光CT、螺旋形CT相继登场。以数字射线照片的实用化为代表的各种进步,推动了医用图像整体向数字化迈进,促进了医用图像整体的一元化管理、远程医疗等的研究和普及。这些是将图像的传输、记录、压缩、还原等广义的图像处理综合起来的系统化技术。特别是以螺旋形CT为基础,在计算机内再构成患者的三维图像的“虚拟人体”的应用,使得外科手术的演示和虚拟化内视镜变为可能。1995~1998年,日本和美国分别在以人体全身X射线CT以及MRI图像为基础上实现了可视化人体工程。20世纪90年代,针对X射线图像计算机诊断,在胸部、胃以及乳房X射线图像乳腺摄影法等方面分别投入大量精力展开研究,其中一部分在90年代末期达到了实用化水平,1998年美国公布了第一台用于医用X光照片计算机诊断的商用装置。
在产业方面,其实用化应用范围得到了广泛拓展,并开始产生效果。不仅可用于检查产品外观尺寸、擦伤、表面形状,还应用于X射线图像等的非破坏性检查、机器人视觉判断、组装自动化、农水产品加工、等级分类自动化、在原子反应堆等恶劣环境下进行作业等各个领域。
在遥感领域,20世纪80年代多国相继发射了各种地球观测卫星,用户可以利用的卫星图像种类和数量有了一个飞跃性增长。此外,由于计算机等技术的进步,廉价系统也可以进行数据解析,用户的视野飞速扩展。20世纪90年代前半期,搭载装备有主动式微波传感器的合成孔径雷达(synthetic aperture radar,SAR)的卫星相继发射升空,很多人投入到SAR数据的处理、解析等技术的研究之中。这其中,利用2组天线观测到的微波相位信息进行地高测量和地球形变测量的研究有了很大进展。1999年高分辨率商业卫星IKONOS-1发射升空,卫星遥感分辨率进入到1m的时代。
文件与教材处理、传真通信的普及、计算机手写输入的图形处理、设计图的自动读取、文件的自动输入等,在不断的需求中也逐步发展起来。
在监测和通信方面,在图像高压缩比的智能编码、环境监测、人脸识别、行为识别、人机交互等众多领域中得到了广泛应用。
在视频图像处理方面,作为机器视觉的应用,将视觉系统搭载在汽车和拖拉机上实现了汽车和拖拉机的无人驾驶。在智能交通系统(intelligent transportation systcm,ITS)中,通过对公路监控视频的处理,自动提示交通拥堵状况。出现了视频图像的自动编辑技术,达到了一般用户也能操作的程度。视频处理的主要技术包括图像的压缩编码、译码、特征提取和生成等。提出了智能编码的概念,视频图像的解析、识别和通信也开始了快速发展。
20世纪90年代后半期,开始关注于构筑将现实世界、现实图像和计算机图形学(computer graphics,CG)与虚拟图像自由结合的复合现实。CG、图像识别作为其中的主要技术发挥着重要作用,现在已经实现了实时体验与三维虚拟空间的互动。此外,在这些动向中,“计算机是媒体”的认识也被确定下来,而其中“图像媒体”的定位、利用方法以及多媒体处理中的图像媒体作用等,将会成为今后图像处理中的关键词。
三维CAD(computer aided design)中各种软件模块的出现使得在制造业、建筑业、城市规划中应用CAD成为家常便饭。此外,在利用各种媒体对数字图像进行普及的过程中,为了防止图像的非法复制、不正当使用,20世纪90年代产生了处理图像著作权及其保护的重要课题,开展了大量的电子水印技术等方面的研究工作。
图像处理技术的发展基石是计算机和通信的环境,在网络环境不断发展的同时,随着以大容量图像处理为前提的高速信号处理、大容量数据记录、数据传送、移动计算(mobile computing)、可穿戴计算(wearable computing)等技术的发展,以及包括普适计算(ubiquitous computing)在内的技术进一步推进,将给图像处理环境带来更大的变革。
在成像技术方面,从CT的实用化、MRI和超声波图像的新发展可以看到与人体相关的成像技术的发展前景。扫描仪、数字照相机、数字摄像机(摄像头)、数字电视、带有数字照相机的手机等,都可以方便地获得图像数据,也就是说图像数据的获取方法已经大众化。
在软件方面,处理系统的智能化水平越来越高。在图像识别与认知、生成以及传送与存储之间,或虚拟环境和现实世界及其记录图像之间,各种融合正在逐步形成。例如,机器宠物和人型机器人已经出现,医学应用方面的计算机辅助诊断(computer aided diagnosis,CAD)以及计算机辅助外科(computer aided surgery,CAS)已经实用化。作为对物品的智能化识别、定位、跟踪和监控的重要手段,图像处理同时也是物联网技术的重要组成部分。
20世纪80~90年代,随着个人电脑和互联网的普及,人们的生产和生活方式发生了很大的变化。21世纪能够影响人类生存方式的事件,将是各类机器人的推广和普及,机器视觉作为机器人的“眼睛”,在新的时代必将发挥举足轻重的作用。