机器的眼睛
当摩尔定律在处理器、存储器、传感器以及其他计算机硬件(一个极其例外的情况是电池,它的性能并不是以指数比率而提升的,那是因为它基本上是由化学成分构成的,而不是电子化产品)发挥作用时,它并不仅仅使计算机设备变得更快、更廉价、更小、更轻,它还使得这些设备的性能提升到我们之前根本就无法想象的高度。
人工智能领域的研究专家一直着迷于(甚至是迷恋于)同步定位与建图问题,也被称作SLAM。实际上,SLAM就是当你穿梭于一栋不熟悉的建筑物时,你把这栋建筑物以地图的形式在脑子里绘制出来的过程,包括门在哪里、楼梯在哪里,以及你可能碰到的所有东西。同时,你也能把你在这栋建筑物的行踪完整地记录下来(比如,你能发现回到楼下以及从前门出去的路径)。对于绝大多数人来说,SLAM仅仅需要一点点思想意识就能做到。但如果教会一台机器这样做,将会是一个巨大的挑战。
应该给机器人安装哪种传感器(摄像头?激光器?声波定位仪),传感器在接收到信号后又该如何解析?这些都是研究专家们曾经认真思考过的问题,但针对这些问题的解答进展得并不顺利。正像2008年对这个研究课题所进行的总结一样,SLAM是“机器人所面临的基本挑战之一——(但它)看起来好像几乎所有当前的方案都无法在一个面积较大的区域内持续不断地完成地图的绘制,主要原因之一是由于计算成本的增加,另一个是由于当场景和区域变大时,一些不确定的因素就显现了出来”。总起来说,感知一大块区域,并且能够立即吸纳、解析获取的所有数据是非常棘手的问题,这个问题严重阻碍了SLAM的进展。直到一件售价150美元的视频游戏周边设备生产出来之后,这个问题才得以解决——这个时间正是SLAM的难题被公布出来两年之后。
2010年11月,微软公司推出了Kinect传感器,作为应用于Xbox游戏平台的周边设备。Kinect能够跟踪两名操作中的玩家,捕捉每名玩家多达20个关节点。如果一名玩家移动到另一名玩家的前面,这个设备就会对被隐藏在后面的玩家的动作做出最精准的推测,然后当他或她重新回到监控视野范围时,再对其所有的节点进行无缝式的捕捉。Kinect能够通过光线和声音识别玩家的脸、声音和手势,要完成这些,它需要使用数字传感器——包括一排麦克风(一排麦克风要比单独一只麦克风更精确地探明声音的来源)、一个标准的视频摄像头以及一套既能投射又能探测红外线的全方位感知系统。然后设备中的数个处理器和大量的专用软件把这些传感器的输出信息再转换成游戏设计者能够使用的信号。到最后,所有的功能都被融进了这台仅有4英寸(约10厘米)高、不足1英尺(约30厘米)宽、零售价为149.99美元的设备中。
在产品发售之后,Kinect在60天之内的销量就超过了800万台(超过了iPhone和iPad),直到现在这一数据还依然保持消费电子产品销售速度最快的吉尼斯世界纪录。早期的Kinect能够让玩家玩飞镖、搏斗以及哈利·波特的魔法术等游戏,但这些还远远没有穷尽这台设备的功能。2011年8月,在加拿大大不列颠哥伦比亚省温哥华市SIGGRAPH(图形与交互技术特别兴趣组)大会上,微软公司的员工和专家使用Kinect砰的一声关上了机器人领域这个长期存在的难题和挑战。
SIGGRAPH是致力于研究和实践数字图形规模最大且最负盛名的研究团体,参与者包括研究专家、游戏设计者、记者、企业家和对这一领域感兴趣的其他人士。这个团体的大会是微软展示“创想计划”网站所称的“自垦改变一切”项目的最佳平台。这个项目指的就是“KinectFusion”——它利用Kinect来解决SLAM难题。
在SIGGRAPH 2011年的一段视频展示中,一个人手持一台Kinect,对着一间普通的办公室——里面有椅子、盆栽植物以及台式计算机和显示器。当他这样做的时候,视频图像就被分解成Kinect能够感知的多幅屏幕。从这段视频中,我们就能很清楚地知道,即使Kinect没有完全解决这间办公室的SLAM的难题,也基本差不多了。在实际的过程中,Kinect能够绘制一幅三维的房间地图,里面有所有的物品,还包括一位待在房间里的人员。对于KinectFusion,科技博客Engadget 在SIGGRAPH大会之后的登记条上所写道的是:“Kinect把3D感应带到了主流世界,而且研究专家们的智慧也变成了商品化的产品,简直太疯狂了。”
2011年6月,也就是在SIGGRAPH大会召开前夕,微软公司已经开发了Kinect软件开发包,供程序员使用。在大会之后,人们使用Kinect来进行同步定位与建图的兴趣迅速增长,很多机器人和人工智能研究领域的团队都下载了软件开发包。
在不到一年的时间里,一支由我们麻省理工学院计算机科学与人工智能实验室的同事约翰·伦纳德(John Leonard)引领的爱尔兰和美国研究团队宣布了Kintinuous的诞生,它实际上相当于一个“空间扩展”了的KinectFusion版本。借助Kintinuous,使用者可以使用Kinect扫描像公寓大楼里面积更大的室内场景,甚至是室外的环境(这个团队在夜间驾驶时,借助手持Kinect,透过汽车玻璃,来扫描外面的场景)。在阐述他们项目的文章最后,Kintinuous研究团队写道:“在未来,我们将会把这个项目扩展到彻底解决SLAM的难题。”我们也认为,距离他们宣布成功的日子已经不远了。当极富创造天分的技术专家与摩尔定律的指数增长完美结合起来的时候,即使最棘手的问题也可以迎刃而解。
在前面章节里我们谈到,价格低廉、功能强大的数字传感器是一些科技类科幻小说一定会涉及的话题。Baxter拥有多个数字摄像头,以及一组强大的定位探测器。所有这些工具和设备在不久之前还显得笨重无比,而且精确性也不够,昂贵的价格也使其无法实际应用。Google自动驾驶汽车吸纳了几种传感技术,但它最重要的“眼睛”是被装配在汽车顶部的巨大的LIDAR[是LIght(灯)和 raDAR(雷达)的结合体]。这个设备是由Velodyne(一家激光雷达传感器制造公司)公司生产的,它安装在每秒旋转10次的机器罩里,包含了64道相互分离的激光束以及同等数量的探测器。LIDAR每秒可采集130万个数据点,然后设备上的计算机把这些数据点整合起来,转换成一个实时的3D画面——范围可以达到周围100米。早期的商业LIDAR系统在2000年左右就出现了,但其成本却高达3500万美元,而在2013年中,Velodyne公司为自动行驶车辆装配的雷达系统价格却只有约8万美元,而且这个数字在不远的将来还会大幅下降。该公司的创始人和首席执行官戴维·霍尔(David Hall)预测,大批量生产将会使得这一产品的价格降至相当于“一台几百美元的照相机”的水平。
这一章所有的这些例子都在说明,为什么我们现在处于第二次机器革命时代的三个基本特征中的第一个:稳定的指数增长已经把我们带入棋盘的另一半时代——我们所惯常认为的那种可以催生未来的“前车之鉴”在这个时代里已经不再可靠。摩尔定律的双倍累积效应,以及双倍累积的外溢效应仍会纷至沓来,用不了多少年,我们的世界将会是一个超级计算机的世界。在这个世界里,前所未有的廉价传感器所带来的“廉价”解决方案将会使以前棘手的难题消遁于无形,科幻小说的虚幻世界也将变成活生生的现实。
有时候一定程度上的不同(换句话说,更多的是相同),能够变成根本上的不同(换句话说,与任何事物都不相同)。棋盘的另一半的故事提醒我们,我们应该充分意识到,充足的指数增长和进步能够把我们带入一个令人吃惊的新天地。实际上,最近的很多例子都让我们确信,我们已经进入了一个新天地。