机器智能的崛起
计算机科学家凯文·墨菲(Kevin P. Murphy)这样定义机器学习:“自动监测数据中的模式,并利用已发现的模式预测未来数据的一系列方法。”8
回想一下机器学习的问题,在引言中,我们讨论过识别驼背沙发。一种常见的机器学习方法是,首先收集所谓的“训练数据”,在这个例子中,通过收集沙发的图片,比如来自家具目录和社交媒体的帖子,让贾斯汀这样的人给它们贴上“是驼背沙发”或“不是驼背沙发”的标签。然后,机器学习算法把一张新的沙发图片与训练数据中的图片进行比较。如果它看起来更像驼背沙发,算法就会把新图片归类到驼背沙发。但如果新图片光线不好,或者图片角度有问题看不清靠背,或者有人坐在沙发上挡住了靠背,机器学习算法可能就不知道如何归类。在这种情况下,大概需要更多人类帮忙。
人工智能的总体目标是建立具有智能的计算机系统,这种智能指的是具有可以与人类媲美的评价和行动能力。实现通用人工智能是一场野心勃勃的革命,而理解图片中的物体是其中的一部分。毕竟,即使一两岁的小孩也能够认出照片里是苹果还是狗。计算机科学教授李飞飞是斯坦福大学以人为本人工智能研究所(Human-Centered AI Institute)的联合主任,她和同事想要解决一个更普遍的问题,而不是训练人工智能识别特定的物体,比如沙发。他们想训练机器识别图片中的主要物体,无论这个物体是什么——狗、人、车,还是山。要做到这一点,他们需要的训练数据远远不是一个人能产生的。要多得多。
李飞飞和她的同事首先编写了一个软件,以便从万维网上下载数百万张图片。最开始,他们雇了一个大学生团队给每张图片贴标签——在理论上,这相当于雇用临时工。尝试了之后,他们推算出完成这项工作需要的时间——大约是19年。所以他们改变了策略。接下来,他们尝试开发机器学习算法,凭猜测自动给图片贴标签;如果机器不知道贴什么标签,就求助于人类。这种方法也失败了,因为机器学习算法犯的错误太多了。他们正在寻找非常精确的数据,或者叫“黄金标准”数据,以便日后其他科学家能够反复使用。事实上,如果这个问题很容易就能由机器来解决,那么他们一开始就不需要数据集。
不久,2007年,李飞飞和她的同事发现了MTurk,他们意识到,MTurk的API为他们提供了一种方法,可以自动向人们分发图片标记任务,并向他们支付费用。他们尝试了几种不同的工作流程,但最终他们共使用了来自167个国家的约4.5万名工人,准确地为320万张图片贴了标签。9两年半后,他们的集体劳动创造了一个庞大的符合黄金标准的数据集,其中的图片分辨率很高,物体的标签也非常准确。李飞飞称之为“ImageNet”。由于ImageNet自创建以来每年都会举办比赛,研究团队使用这些数据开发更复杂的图像识别系统,并提高技术水平。有了黄金标准的数据集,研究人员可以测量新算法的精度,并与当前算法的技术水平做比较。研究人员因此取得了非常大的进步,以至于现在有些人工智能在图像识别方面比人类做得更好!10
在2010年至2017年的竞赛中,科学家在算法和工程方面取得的进步,推动了近期的“人工智能革命”,对多个领域和多种问题产生了影响。训练数据的规模和质量对这一努力至关重要。MTurk工人是人工智能革命的幕后英雄。如果没有他们生成训练数据,并提高训练数据的规模和质量,ImageNet就不会存在。11ImageNet的成功是一个值得注意的例子,说明了自动化的最后一英里悖论是如何发挥作用的。人类训练了人工智能,结果人工智能完全接管了任务。之后研究人员可能会提出更困难的问题。例如,在ImageNet挑战完成之后,研究人员把注意力转向寻找图片和视频中物体的位置。这些问题还需要更多的训练数据,从而产生了另一波幽灵工作。但是,程序员和企业家利用幽灵工作创建训练数据从而开发更好的人工智能有很多实例,ImageNet只是其中一个。12