1.3 大数据与机器学习之痛
2009年出现了一种新的流感病毒,这种甲型H1N1流感结合了导致禽流感和猪流感病毒的特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说,可能会暴发大规模流感,类似于1918年西班牙暴发的影响5亿人口并夺走了数千万人性命的大规模流感。更糟糕的是,我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它的传播速度。但要做到这一点,他们必须先知道这种流感出现在哪里。在甲型H1N1流感暴发的几周前,互联网巨头谷歌公司的工程师在《自然》(Nature)杂志上发表了一篇引人瞩目的论文,它令公共卫生官员和计算机科学家感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播,不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测。和疾病控制中心一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾病控制中心一样要在流感暴发一两周之后才可以做到。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻洞见。基于这样的技术理念和数据准备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。
不幸的是,当10年后新型病毒出现的时候,似乎没有任何机构预测出即将发生波及全球的公共安全危机。新型冠状(以下简称新冠)病毒大流行引发了现代历史上空前的全球危机。毫不夸张地讲,全世界乃至我们每个人都因此陷入了几十年未曾有过的艰难境地。对我们而言,这一决定性时刻的影响将持续多年,许多事情都将永远改变。新冠疫情正在严重地破坏经济,使社会、地缘政治等多个领域陷入危机与动荡,引发人们对环境问题的深刻关注,也让技术广泛进入我们的生活(这一影响是好是坏,我们还无法判断)。世界的种种裂痕从未像今天这样一览无遗,社会分化、公平缺失、合作乏力、全球治理与领导失灵等问题尤为明显。全球新冠病毒大流行标志着全球发展的根本性转折,危机之前“支离破碎”的世界常态将一去不复返。意料之外的快速变化将层出不穷,互相融合,引发第二波、第三波、第四波乃至更多的后果,带来连锁反应以及难以预料的影响,在逐渐打破以往状态的同时,塑造出截然不同的“新常态”。在这个过程中,我们关于世界可能呈现或应当呈现何种面貌的许多信念和假设将烟消云散。新冠病毒大流行本身或许不会彻底改变这个世界,却能加速业已发生的变化,并引发其他变化。我们唯一可以肯定的是,这些变化不会是线性的,间断会经常发生。
现在要合理预测新冠疫情将会带来哪些重大变化还为时过早,也不是本书重点阐述的内容。笔者引用这两个事件仅仅是为了说明自己对大数据和机器智能的粗陋认识。由于即将发生的变化难以预想,即将产生的新秩序也有无限可能,即使拥有再多的历史数据、再强大的人工智能算法,精准预测未来也是不可能的。
1.3.1 今天的大数据与机器智能
数据(data)这个词在拉丁语里是“已知”的意思,也可以理解为“事实”。如今,数据代表着对某个事物的描述,数据可以进行记录、分析和重组。为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们需要知道怎么记录计量的结果。计量和记录的需求也是数据化的前提。记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和质量的计量。公元前3000年,信息记录在埃及和美索不达米亚平原地区就有了很大的发展。计量和记录共同促成了数据的诞生,它们是数据化最早的基础。伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精确地记录时间、距离、地点、体积和质量,等等。在相当长的时间里,准确分析大量数据对人类来说是一种挑战。因为记录、存储和分析数据的工具不够好,我们只能收集到少量数据进行分析,这曾使我们一度很苦恼。为了让数据分析变得简单,我们不得不把数据量缩减到最少。计算机的出现带来了数字测量和存储设备,大大地提高了数据化的效率,也使得通过数据分析挖掘出数据中隐藏的更大的价值变成了可能。进入21世纪以来,人类依靠互联网、廉价服务器和存储设备,以及日趋成熟的云计算、并行计算等工具,实现了大规模的并行计算,可以处理的数据量已经大大增加,而且未来会越来越多。
1.计算能力为保证
近年来,伴随着科学技术突飞猛进地发展,并行计算、大数据、机器学习等成果给人类的生产、生活带来了很大影响。归纳起来,主要体现在以下(但不限于以下)几个方面的进展:
(1)计算机的处理速度飞速增长,不仅超越了人类,而且正在比以往任何时候都要快地扩大其领先优势。随着量子计算等技术的出现,机器将不再使用晶体管。计算成本下降得如此之快,使得NASA和NOAA(National Oceanic and Atmospheric Administration,美国国家海洋和大气管理局)等组织使用的“超快计算”变得人人都用得起了。在过去25年里,平均1美元的可用计算能力每4年增长10倍。单位成本存储量和带宽的增长也相似。如今一个Apple Watch的计算力便超过了1985年重达5500lb(1lb=0.45359237kg)的液冷克雷超级计算机(Cray supercomputer)的50%。
(2)计算机在理解复杂性方面的表现也有类似进步,这是因为算法可以模拟人类的思维方式。计算机开始像人类一样“看”,像人类一样识别语言,甚至比人类更好地感知各种模式。当然人类还是有很多比计算机优越的地方,但假以时日,机器在掌握更广泛任务的复杂性方面会超越人类,并且随着计算速度的提高迅速扩大其领先优势。
(3)全世界可用数据量以指数的形式迅速膨胀,其中大部分是非结构化数据。这些格式多样的信息长期以来无人问津,就像一个堆满了难以管理、难以使用的数据的海洋垃圾场。最迅猛的增长将来自于非结构化数据,比如视频像素,这些数据并不符合预设的数据库格式。如今计算机已经可以处理不完整的数据或者毫无结构的纯文本。
(4)随着机器在探索发现中扮演更重要的角色,它会提升我们预测未来情境并制定战略行动路线的能力。但是对未来的预测不仅来自旧的静态数据,还来自实时处理变量的算法。我们将运用复杂的人类和组织系统模型,以气象学家预测风暴的方式来预测业务过程和社会事件。
今天,以大数据为标志的“信息社会”终于名副其实了。大数据无时无刻不在产生和变化,它们既可以是互联网上每天产生的、数以亿计的网页内容、文本、视频、电商订单等,也可以是来自制造业的企业信息化数据、工业物联网数据以及外部跨界数据等。未来,伴随着工业互联网的发展壮大,数以亿计的人与人、人与机器、机器与机器相互连接,工业大数据将以前所未有的维度和粒度迅猛地涌现。大数据中心正逐渐成为现代社会基础设施(新基建)的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据(大数据分析)。可以肯定的是,数据量将持续增长,处理这一切的能力也必将不断增长。
2.深度学习占上风
专家们不断告诉我们,他们发现了一种新的功能,可以对海量数据进行筛查并发现真相,这将为政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因为强大的计算机可以对数据进行分析、发现重要的结论。大数据专家认为,大数据中所包含的充足信息可以帮助我们消除系统的不确定性,而且数据之间的相关关系(相关性)在某种程度上可以暂时取代原来的因果关系,帮助我们得到我们想知道的答案。相信只要拥有大数据便足矣的人比比皆是,他们认为人类无需理解世界,也无需理论,能在数据中找到模式就足够了。人类不仅不需要理论,理论化还会限制人类所见,妨碍人类发现意料之外的模型和关系、模型是否有用,只需要看看数据就知道了。
2008年,美国《连线》(WIRED)杂志的前主编克里斯·安德森撰写了一篇引起争议的文章,题目是《理论的终结:数据泛滥时科学方法过时》(“The End of Theory:The Data Deluge Makes the Scientific Method Obsolete”)。安德森表示,只要有足够的数据,数据就能自圆其说……更庞大的数据以及计算处理数据的统计学工具,都为理解世界提供了全新的方式。相关系数可以取代因果关系,科学的发展根本无需相关模型、统一理论或任何真正的机械论的解释。
把大数据推向巅峰的代表著作当属维克托·迈尔-舍恩伯格和肯尼思·库克耶[5]所著的《大数据时代:生活、工作与思维的大变革》。该书的作者明确地提出了大数据的精髓在于分析信息时的3个转变:第一个转变就是在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不依赖于随机采样。第二个转变就是研究数据之多,以至于我们不再热衷追求精确度。第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。
在《自然》杂志后来发表的一篇文章中,DeepMind甚至宣称,他们已经“在没有人类知识的情况下”掌握了围棋。虽然DeepMind所使用的人类围棋知识的确很少,但“没有人类知识”这个说法还是夸大了事实。系统仍然在很大程度上依赖于人类在过去几十年间发现的让机器下围棋的方法,尤其是蒙特卡洛树搜索。这种方法通过从具备不同棋局可能性的树形图上随机抽样来实现,实质上与深度学习并没有什么关系。DeepMind还内置了棋局规则和其他一些关于围棋的详细知识。人类知识与此无关的说法,根本不符合事实。
其实,大数据分析方法的数学基础就是统计学。统计学,又称数理统计,是建立在概率论基础之上,收集、处理和分析数据,找到数据内在的关联性和规律性的科学。统计学唯一关注的是如何总结数据,而不关注如何解释数据。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据(fit data)。相关关系的核心是量化两个数据之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。相关关系没有绝对,只有可能性。相关关系是无法预测未来的,它们只能预测可能发生的事情。
伴随大数据同时出现的,还有基于数据处理的算法——深度学习。深度学习是一种极其强大的统计引擎(statistical engineer)。2016年,阿尔法围棋(AlphaGo)以4:1的成绩击败了围棋世界冠军李世石。机器学习让我们所有人都感到了惊喜。AlphaGo是在学习了几十万盘的数据后,得到了一个统计模型,使得它对于在不同局势下如何行棋有一个比人类更为准确的估计。AlphaGo的成功将基于大数据和机器学习的数据驱动方法推上了巅峰。人们甚至产生了一个幻觉——所有科学问题的答案都隐藏在数据之中,有待于巧妙的数据挖掘技巧来解释。
AlphaGo采用的深度学习技术属于人工智能的统计学派。该学派认为,机器获得智能的方式和人类是不同的,它不是靠逻辑推理,而是靠大数据和智能算法。机器学习的方法有很多,监督学习和非监督学习是两种最常见的类型,在帮助思考和行动方面起着不同的作用。一般而言,监督学习根据训练数据在模型中的预测准确性来实现逼近和预测。如果了解数据的细节,并想建立模型来提高决策结果的能力,监督学习通常是第一步。在监督学习中,让计算机读取某些模式的样本的输入和输出数据。计算机学会了由许多变量描述的模式,并用它来预测同类现象的新事例的结果。相反,非监督学习通常始于对数据或其内部联系一无所知的状态。数据科学家不提供训练集,而是要求计算机尝试以不同的方式划分数据方式,从而了解哪些选择和情况有可能发生。经过不断地猜测,计算机推断出了正确的划分和分组,从而揭示了数据的描述和概况。非监督机器学习算法可以通过不断地学习来感知和理解数据。非监督学习的一些特定技术通常被称为“深度学习”。在其中一种叫做强化学习的优化技术中,计算机被要求完成指定目标,比如下棋,它们学习如何使用现有数据来达到目标。
最近人工智能界的许多成功案例,大都因为得到了两个因素的驱动:第一,硬件的进步,通过让许多计算机并行工作,使更大的内存和更快的计算速度成为现实;第二,大数据,包含十亿字节、万亿字节乃至更多数据的巨大数据集,在几年前还不存在。在这些案例中,大数据、深度学习再加上速度更快的硬件,便是人工智能的制胜之道。
数据驱动方法能让你认识到可重复的公式——工作和生活中超然于具体细节的真理。这些真理或公式在众多场合都有用,帮你一次又一次地提出合理的假设(预感)来证明你的想法是否有效。整个过程帮助你创建一套理论或一个故事,故事的逻辑用于指导决策。构建故事的过程中你可能会遇到麻烦,尤其是因为机器智能或许早早揭示了一种模式,但迟迟不见有人能对此解释清楚。例如,在心脏图像中,机器可以识别出预示某种心脏疾病的可见征兆,而医生可能只有在将来才能解释这种疾病与生理模式之间的因果关系。所以,即便你持怀疑的态度也得紧跟数据。[15]
3.拓展应用遇瓶颈
大数据和机器学习融入并改善了人类生产、生活的许多方面,可是,近几年的应用进展也凸显了大数据和机器学习自身的缺陷,以及应用过程中引发的伦理、道德问题等。
自从人工智能诞生以来,人工智能专家就被冠以“远景有余、落地不足”的“美名”,近年来“火爆”的基于大数据和机器学习的人工智能也是如此。2015年,Facebook公司启动了“M计划”。这是一个目标远大、覆盖范围广泛的聊天机器人项目。2016年,IBM宣称,在“Jeopardy!”智力问答节目中夺魁的AI系统沃森(Watson)将会“在医疗行业掀起一场革命”,并称沃森健康(Watson Healthcare)的“认知系统能理解、推理学习和互动”,并且“利用认知计算在近期取得的进步……我们能达到不敢想象的高度”。2017年,Waymo公司(从谷歌分拆出来专门从事无人驾驶汽车工作达10年之久的公司)首席执行官约翰·克拉夫茨克(John Krafcik)说Waymo很快就能推出无需人类司机作为安全保障的无人驾驶汽车。但是,时至今日,这些目标还没有一件得到落实。沃森的问题被曝光后不久,Facebook的“M计划”也被叫停。谷歌前首席执行官艾里克·施密特(Eric Schmidt)曾信心满满地宣布,人工智能会解决气候变化、贫困、战争和癌症等诸多社会问题。X-Prize创始人彼得·戴曼迪斯(Peter Diamandis)在他的著作《富足》(Abundance)中也提出过类似的观点,认为强人工智能在成真之日“一定会如火箭般载着我们冲向富足之巅”。2018年初,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)宣称:“人工智能是人类正在从事的最重要的事业之一,其重要性超越电和火的应用。”不到一年之后,谷歌被迫在一份给投资者的报告中承认:“纳入或利用人工智能和机器学习的产品和服务,可能在伦理、技术、法律和其他方面带来新的挑战,或加剧现有的挑战。”
1.3.2 数据挖掘与拷问数据
我们都知道,不论是常规工作中进行的统计分析,还是进行大数据分析,都离不开以下几个步骤:①数据收集、提取、清洗、整理的过程。这是对数据进行预处理,从而得到高质量的数据。②数据解释和可视化。我们可以了解数据的呈现样式,有什么特点和规律。让数据说话,展现数据之美,是数据可视化的一个重要目的。③数据分析与预测。我们可以对已得到的数据进行分类整理,并针对已得到的数据建立模型,以便从中得到更有价值但直观上不容易发掘的信息或对未来进行预测。
智能机器的性能毋庸置疑,可是它们在检索未标记和未整理的数据时,并没有我们想象中的那么好。它们还需要我们提供搜索的上下文,否则很难获得有用的信息。在大数据分析之前进行数据准备时,数据科学家使用多种算法来清洗数据。他们还会将重复的数据清除,并通过更多的标签(日期、位置、技术)来丰富数据的含义。数据清洗的一般方法是处理数据集中缺失的数据点。一种方法是删除质量较差的数据集,其风险是使数据集变得过于单薄。另一种方法是用算法来推算缺失的数据,用近似值填补空白。数据清洗涉及的另一个问题是数据的准确性。“废料进,废品出”的试金石原则与以往一样适用。
数据准备是数据科学家开发并获取数据的“特征”列表时的一个特别重要的步骤。特征工程是为数据选择一个易于在数学模型中使用的较窄的描述参数集的过程。特征还可以是对特定属性(如弹性)、属性组合或数字结构的描述。特征是数据科学的基础,它们让数据科学家能够把算法应用于数据。像速记技术一样,特征也使得在以前的分析中无法完成的计算密集型数据处理成为可能。当涉及大规模图像处理、传感器数据关联、社会网络分析、加密和解密、数据挖掘、模拟和模式识别时,一个良好的特征集会带来完全不同的效果。某些情况下,为了追求分析的效率,只能要求数据科学家减少特征的数量。较窄的特征集同时降低了复杂性,也改善了计算性能。
使用大数据,就像在一堆沙子中淘金。不经过处理的原始数据是给不出什么新的知识的,大数据能产生的效率在很大程度上取决于使用(和挖掘)数据的水平。数据并没有像我们想象的那样创造出我们期待的价值,很多时候甚至变成了负担——不仅需要增加运维人员,还需要增加设备来存储这些数据。当然,数据也不会直接为制造业创造价值,真正为制造业带来价值的是数据流转,是数据经过实时分析后及时地流向决策链的各个环节,成为面向客户,创造价值与服务的内容与依据。
数据驱动方法要想成功,除了数据量大之外,还要有一个前提,那就是样本必须非常具有代表性,这在任何统计学教科书里就是一句话,但是在现实生活中要做到是非常困难的。拥有更多的数据,特别是历史数据,通常将有助于使模型预测结果更加准确,这确实是千真万确的。应用更多来源的数据,如社会网络数据,将有助于组织更好地预测客户的选择和偏好,因为我们中的所有人都在一定程度上受到那些存在于我们社交网络上的人的影响,无论他们是实体的还是虚拟的。尽管人们常说只要拥有了数据集,数据科学家就可以预测未来的一切,但现实中,我们前进的脚步却处处受到数据集的限制。例如,我们不可能通过使用更大的数据集,就能可靠地预测未来的气候变化,因为不提供类似事件的历史数据的话,计算机将无法学习到相关模式,从而创建可靠的模型。我们必须时刻警惕在什么时候数据的魔力会失效。
大数据领域的研究者坚信,只要在数据挖掘方面拥有足够的智慧和技巧,就可以通过数据本身找到这些问题的答案。加里·史密斯在文献[8]中指出:“今天的数据挖掘者再度发现了几个曾经风靡一时的统计学工具。这些工具重获新生是因为它们的数学原理复杂中带着优美,很多数据挖掘者被这种数学之美诱惑,很少有人思考深层的假定和结论是否合理。”有两种已经存在100多年的统计学工具——主成分分析和因子分析——被数据挖掘者重新当作数据规约工具,用以减少解释变量的有效数量。主成分分析和因子分析都是基于变量的统计学属性,不关注数字代表的是什么。这种信仰是盲目的,很可能受到了对数据分析的大规模宣传炒作的误导。例如,美国的莱维特与约翰·多诺霍撰写的一篇论文认为,美国的合法堕胎降低了总体犯罪率。文章指出,如果没有合法堕胎,那么由于社会经济环境或者家长的忽视,那些“没有必要”但仍被生下来的孩子将会产生犯罪倾向(尤其是暴力犯罪)。莱维特说,他喜欢将结果从数据中梳理出来。听起来,他似乎在炫耀一种宝贵的技能。
数据挖掘能够轻易发现包括多个解释变量的模型,即便解释变量与所要预测的变量毫无关系也能与数据达到惊人的吻合度。即使在回归模型中增加毫无意义的解释变量也会提高模型的吻合度。这种建模方法就是常说的无所不包的“厨房水槽法”,即一股脑地把所有解释变量统统塞进模型中。无法避免的问题是,即使模型与原始数据吻合度很高,但对使用新数据进行预测却丝毫不起作用。学习统计学的学生在大学里就学到,仅为了提高适合度就添加或取消输入有百害而无一利。数据挖掘的根本问题在于,它非常擅长找到匹配数据的模型,但对判断模型是否荒唐可笑完全束手无策。统计学相关系统无法替代专业人士的意见。为现实世界建模的最佳方法是,从具有吸引力的理论学说开始,然后验证模型。合理的模型可对其他数据做出有用的预测,而不是预测用来推算模型的数据。数据挖掘则是反其道而行之,它没有基础理论,因此无法区分合理与荒谬的模型。这就是为什么这些模型对于全新数据的预测结果并不可靠。
许多人工智能领域的研究者总是绞尽脑汁想要跳过构建因果模型或识别出已有的因果模型这一难度较大的步骤,试图依赖数据解决所有的认知问题。统计学中的相关性却不是因果关系的代名词。不管两种事物的关系多么紧密,做出判断之前,我们都需要一种合理的解释。人类可以辨别相关系数和因果关系的差异,计算机却不能。统计方法能找出相关系数,但是无法解释是第一个要素引起第二个要素,还是相反情况,又或是第三个要素引起前两个要素。人类智能则让我们能够思考数字背后的现实,考虑合理的解释。因果关系从来不能单靠数据来回答,它们要求我们构建关于数据生成过程的模型,或者至少要构建关于该过程的某些方面的模型。
我们大家共同面对的境况是,数据训练是保密的,程序是专用的,而决策过程是一个连程序设计者都无法解释的“黑箱”。就算人们对其作出的决策再不满意也无从下手,根本没有办法去反驳和挑战。数据挖掘算法有两个根本问题:一方面,如果算法是专利机密,我们则无法检查算法使用的数据的准确度;另一方面,如果算法是公开的,大家就能摆弄系统,就会有损模型的有效性。
过去,统计学试验都假定研究人员先在脑子里有定义明确的理论,再搜索相应的数据来验证自己的理论。而如今,大数据的“数据为先,理论靠后”准则甚嚣尘上,必然成为成千上万“冒牌理论”的来源。学术研究的圈子竞争激烈,众多“聪明绝顶、竞争力强”的科学家坚持不懈地追名逐利,以求自己的职业生涯获得发展。有时,在著名刊物上发表新成果的压力过于沉重,以至于研究人员会撒谎或造假来寻求事业高升。研究人员需要依靠可以发表的研究成果存活,当结果不尽如人意时会倍感沮丧,还会担心其他人抢先发表了类似的研究成果,因此有些人会选择编造假数据这条捷径。追求名声和资助的研究人员往往会变成“得克萨斯神枪手”,一种情况是,他们随机开枪,并在弹孔最多的区域绘制靶心。另一种情况是,他们向几百个目标开火,然后只报告他们击中的目标。他们对几百种理论进行检验,然后只报告最符合数据的理论。常言道:“世界上有三种谎言,谎言、该死的谎言、统计学。”统计量不是谎言,它们比单纯的数字更容易受到操纵。难怪诺贝尔奖得主罗纳德·科斯曾经辛辣地讽刺说:“只要拷问数据的时间足够长,它就会屈打成招的。”
大多数拷问数据的商业性研究都因私有协议保护而未公之于众,同时,学术期刊上也发表了很多采用拷问数据方法的研究。首先,我们很容易被模式以及解释模式的理论所诱惑。其次,我们紧盯着支持这种理论的数据,忽视与之相矛盾的证据。即使是受教育程度很高,应当具有冷静头脑的科学家也很容易受到模式的诱惑。“无论文,不生存”是大学生活中的一个残酷现实。2005年,埃尼迪斯发表了一篇非常有影响力的文章,题为《为什么大多数发表的研究成果都是骗人的》。埃尼迪斯在文中引用了大量统计论据和理论论据,就是为了说明医学期刊和其他学术或科学领域中,大量被视为真实的假设实际上都是不真实的。拜耳实验室研究发现,当他们试图利用实验再现医学期刊中的研究结果时,却发现2/3的结果都无法复制。检查一项研究是否真实的另一条途径是,看其在真实世界中能否做出准确的预测。如果用某种数据编造理论,那么就很容易发现这种理论与数据相符。只有当这种结论言之有理,并且得到未经污染的数据检验时,它才是令人信服的。
不要天真地认为模式就是证据。我们需要一个符合逻辑、具有说服力的解释,并且需要新数据对这种解释进行验证。
拥有的信息量呈指数级增长,需要验证的假设也正在以同样的速度增长。但是,数据中那些有意义的关系组合——这里指的是因果关系而非相关性组合,而且这些组合能够证实这个世界是如何运转的——少之又少,增长的速度也不及信息本身的增长速度快,如今的真实信息也并不比互联网和印刷机问世之前多多少。大多数数据都只是噪声,就像宇宙的大部分是真空区一样。[16]
1.3.3 深度学习的痛处
1.机器学习不等于人工智能
神经网络算法是一种给输入分类的统计学步骤(如数字、单词、像素或声音),从而让这些数据在被整理之后输出。神经网络本质上是创建输入变量的权重线性组合(很像主成分分析),并运用这些组合推算与所预测数据最佳拟合的非线性统计学模型(很像多元回归)。推算神经网络权重的过程被称为“训练数据”中的“机器学习”。神经网络更类似回归模型中推算得出的系数,寻找模型的预测结果与被观察值最接近的那个值,不会考虑建模的意义。
目前,人们已经将机器学习误认为就是人工智能。严格地讲,机器学习是人工智能的子域,但机器学习发展得如此迅速和成功,现已超过了以前它引以为傲的母领域。机器学习尝试从数据中学习一切所需,而不再依赖于手工编程构建的知识以及相应的计算机程序。业界在狭义人工智能短期成绩上的痴迷,以及大数据带来的唾手可得的“低垂的果实”,都将人们的注意力从长期的、更富挑战性的人工智能问题上转移开来。深度学习是目前人工智能领域中最受学术界和产业界关注、获得投资最多的一类。但是,深度学习依然并非唯一的方法,既非机器学习唯一的方法,也非人工智能唯一的方法。让机器通过统计数据进行学习,有许多不同的思路。许多问题,包括规划行驶路线和机器人运动等,利用的依然是经典人工智能手段,很少用到或根本不用机器学习。
目前的人工智能是在限制领域内或专用的狭义人工智能(narrow AI),只能应用于其设计初衷所针对的特殊任务,前提是系统所遇到的问题与其之前所经历的场景并没有太大的不同。人工智能参与围棋游戏,它需要处理的系统是完全封闭的,一个摆着黑白棋子的19×19的棋盘,规则固定不变。而机器本身就具有快速处理这个得天独厚的优势。人工智能程序自己就能下数百万盘棋,收集大量的试错信息,而这些数据又能精准地反映出人工智能系统在与人类冠军对决时所处的境况。相比之下,真实生活是没有棋盘限制的,更没有数据能完美地反映出瞬息万变的世界。真实生活没有固定规则,拥有无限的可能性。我们不可能将每一种情况都事先排练一遍,更不可能预见在任何给定情况下需要什么信息。狭义人工智能充其量不过是井底之蛙般的书呆子或白痴专家,只专注于其所在的小圈子,根本意识不到井外还有一个更大的世界。
虽然深度学习在诸如语言识别、语言翻译和语音识别等领域取得了长足的进展,事实也证明了深度学习比之前的任何一门技术都要强大得多,但我们还是认为人们对其给予了过高的期望。人工智能并非魔法,而是一套工程技术和算法,其中每一项技术和算法都存在自身的强项和弱点,适用于解决某些问题,但不能用于解决其他问题。人工智能对训练集的依赖,也会引发有害的“回音室效应”,系统最后是被自己之前产出的数据所训练的。
2.深度学习的窘境
深度学习的专长,是利用成百上千万乃至数十亿个数据点,逐渐得出一套神经网络权值,抓取到数据示例之中的关系。如果只为深度学习提供少数几个示例,那么就几乎不可能得出鲁棒的结果。深度学习是与人类思想有着天壤之别的“怪兽”,它依赖于相关性,而非真正的理解。在最佳情况下,它可以成为拥有神奇感知能力的白痴天才,但几乎不具备综合理解能力。深度学习不具备处理不熟悉的情况、不明确的条件、模糊的规则甚至相互矛盾的目标所需的一般性智能。现代机器学习严重依赖于大量训练集的精准细节,如果将这样的系统应用于训练过的特定数据集之外的全新问题,就没法用了。太多可能发生的事情,是无法事先被一一列举出来的,也不可能全部从训练集中得到。用这样的机器学习训练出来的自动驾驶模型,很可能会因为某个微小的扰动或者某个不起眼的原因而导致车毁人亡。
虽然机器智能有坚实的数学基础,但在实践中还是无法避免偏差。偏差主要源于数据集体量太小,无法有效地发现或预测过程。例如,无法看到不复存在的事物,因此会出现幸存者偏差(survivor bias)。事实上,我们没有看到的数据和我们看到的数据一样重要,甚至更加重要。为避免幸存者偏差,应当从过去开始并向未来展望。偏差的另一个来源是“脏”数据,数据集中充斥的错误和遗漏使得结果的可靠性难以保证。甚至数据科学家本身的偏见也会造成偏差,因为在建模过程中需要进行大量的假设。如果在工作中没有秉持怀疑一切的态度,就可能让自己和同事被错误的数字愚弄。2017年,数据科学家凯西·奥尼尔在TED大会上进行演讲时说:“如果我们盲目相信大数据,很多地方都会出现问题。”
深度学习是不透明的。神经网络由大量数值矩阵组合而成,其中任何一个矩阵都是普通人类从直觉上无法理解的。就算利用复杂的工具,专业人士也很难明白神经网络决策背后的原因。神经网络究竟为何能做到这么多事情,至今仍是一个未解之谜,人们也不知道神经网络在达不到既定目标时,问题究竟出在哪里。由于神经网络无法对其给出的答案(无论正确与否)进行人类能够理解的解释,问题就显得尤为尖锐。机器学习系统参见图1-1。事实上,神经网络如同“黑箱”一般,不管做什么,你只能看到结果,很难搞懂里面究竟发生了怎样的过程。没有人知道程序究竟是怎样算出这样一个结果的。就算人们对其作出的决策再不满意,也无从下手,根本没办法去反驳和挑战。
图1-1 机器学习系统
在真实世界中,完美而清晰的模拟数据根本就不存在,也不可能总是运用试错的手法去收集数千兆字节的相关数据。在真实世界中,我们只能用有限的次数来尝试不同策略,不可能进行上千万次的试算,不慌不忙地调整一下参数,以优化我们的决策。在封闭世界中取得成功,并不能确保在开放世界中获得同样的成就。当下的人工智能研究中,鲁棒性都没有得到足够的重视。以无人驾驶为例,将车辆在理想情况下的行驶表现与车辆在极端情况下的表现混为一谈,是把整个行业置于生死边缘的重大问题。目前这条路的鲁棒性差得太远,根本不可能让车辆拥有人类水平的可靠性。甚至连当前水平的人工智能最擅长的领域(图像识别),也潜藏着危机。
到目前为止,太多的人工智能都是短期解决方案的堆砌,不过是一堆可以让系统立即开始工作的代码,而缺乏其他行业司空见惯的关键过程保障。例如,类似汽车开发过程中的标准程序——压力测试(碰撞测试、天气挑战等)这样的质保手段,在人工智能领域中几乎不存在。在安全性要求极高的场合中,优秀的工程师总是会在计算最小值的基础之上,将结构和设备的设计增强一些。优秀的工程师在设计时,会充分考虑意外发生时的应对手段。他们意识到,无法详细地预测到所有可能出现的问题,因此需要将备用系统囊括进来,在意外情况发生时可以直接调用。航天飞机上使用多台相同的计算机,通常情况下,至少有一台随时待命,只要任何一台处于运行状态,航天飞机就可以正常运行。同样,无人驾驶汽车也不应该仅使用摄像头,还应该使用激光雷达,以实现部分冗余。在关键业务系统出现严重问题的情况下,为了防止不可挽回的灾难发生,优秀的工程师会预先准备好最后一招——在系统中纳入失效保护机制。在设计新产品时,利用颠覆性的创新设计做试验,很可能会从此改变游戏规则,而对于安全至上的应用来说,通常还要仰仗那些屡试不爽的旧技术。建立鲁棒的认知系统,必须从建立对世界拥有深度理解的系统开始,这个理解要比统计数据所能提供的更加深刻。
3.深度学习的层级
当下的人工智能算法只懂得怎样拷问数据,也就是从样本数据中建立统计模型,挖掘统计规律来解决问题。为了提升效果,数据驱动的方法通常需要较多样本数据。可是,即便样本数据量再大,单纯的数据驱动方法仍然面临效果的“天花板”。如果将思路局限于狭义的人工智能,用越来越大的数据集去解决问题,则整个行业就会陷入永无休止的“打地鼠”大战,即用短期数据补丁来解决特定问题,而不去真正应对那些令此类问题层出不穷的本质缺陷。要突破这个“天花板”,则需要知识引导。很多知识密集型的应用对于知识引导提出了强烈诉求。比如,在司法诉讼的刑罚预测问题中,刑罚从根本上讲是由司法知识决定的。数据驱动的方法单纯利用词频等文本统计特征,很难有效地解决这类知识密集型的实际任务。实际应用越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动方法的效果瓶颈。
人类的学习很少是从零开始的学习,人类擅长结合丰富的先验知识开展学习。让机器学习模型有效利用大量积累的符号知识,将是突破机器学习瓶颈的重要思路之一。《为什么:关于因果关系的新科学》的作者朱迪亚·珀尔认为,大数据分析和深度学习(甚至多数的机器学习)都处于因果关系之梯的第一层级(见图1-2),因为它们的研究对象还是相关关系而非因果关系。今天,缺少因果推断的人工智能只能是“人工智障”,是永远不可能通过数据看到世界的因果本质的。他提出了一个“因果推断引擎”的框架,把先验知识、因果模型与数据整合起来。他指出,数据不是越多越好,在某些模型盲的情况下,收集数据就等于浪费时间。
图1-2 大部分动物和当前的学习机器都处于第一层级