迎接大数据思维新模式
2020年新冠肺炎疫情发生后,我待在川黔交界处赤水河畔的山里凉爽之地,读了一些关于数字经济的书籍。数字经济这个词在网络上出现的频率很高。我离开一线岗位,已在全国政协参政议政两年有余,如果不去了解最新的经济动态及相关信息,不跟上时代,就不能很好地完成政协岗位的使命,加之我们小组有几位数据经济方面的专家和企业家,比如工业和信息化部下属的赛迪研究院院长卢山(2022年已任浙江省副省长)、百度创始人李彦宏、联通研究院院长张云勇(2022年已任中国联通云南省分公司总经理)等,因此找机会请教非常方便。同时我也找了一些数字经济方面的专著阅读,其中吴军的《智能时代》和安德雷斯·韦思岸的《大数据和我们》等读起来通俗易懂,似乎觉得自己看明白了一些,便有感而发,直抒己见。过去这方面的书读得少,今次属于扫盲性阅读,可能理解得不是很到位,但把所读所感写出来也算是一种加强阅读记忆的方法。这两篇文章分别载于2020年6月20日和6月23日的《中国证券报》。
···
天有不测风云。2020年6月6日北京把新冠肺炎疫情防控等级由二级下调到三级没几天,病毒突然从新发地农产品批发市场窜出,把北京的防控等级又拽回二级。6月8日我们从北京飞回老家乡下山里想凉快几天,哪知11日深夜当地警察和医护人员根据机票信息追踪到家里,把我们拉去50公里外的县医院做核酸检测,然后天天两次上门测体温,自我隔离14天,我深感大数据之厉害。借此机会看了几本书,包括中信出版集团的《智能时代》。该书作者是大数据科普作家吴军博士,他出版过几本有关大数据的科普著作。作者在书中用通俗易懂的语言,对大数据和机器智能对未来的影响进行了充分的揭示,文字振聋发聩,诸如“数据密集型科学”“机械思维”“大数据思维”等新观点,让人耳目一新。吴军既是大数据科学家,又曾任数据服务商高管,因此书中夹叙夹议,既有科学理论,又有实践经验,让人读起来无晦涩之困,有通俗之感。作者阐述了大数据科学发展的前因后果,概述了科学研究发展经历的四个范式:一是描述自然现象的实验科学,二是以牛顿定律等为代表的理论科学,三是模拟复杂现象的计算科学,四是目前的数据密集型科学。第四个范式是大数据时代的决定性因素,会与以前每一阶段的工业革命一样,给经济社会带来巨大变迁。作者认为,虽然数据在上面四个科学阶段都存在,但只有今天,随着互联网的宽带化和移动电子设备技术的应用,以及数据量的爆炸性增长和科学家对数据的深度挖掘分析,以大数据为特征的数据密集型科学才得以形成。
数据密集型科学推动思维革命
《智能时代》提出了“数据密集型科学”这一概念,说它将推动人类的思维革命。为了说明这一点,作者吴军让我们重温了科学技术引导人类经济社会进步的历史。世界经济发展史上的每一次技术革命,都是围绕着一个核心技术展开的。第一次工业革命是蒸汽机,第二次工业革命是电气化,第三次工业革命是以计算机和半导体芯片为主的信息化,第四次工业革命是大数据和机器智能引领的智能革命。作者预言,第四次工业革命将彻底改变当下我们所有人的生活,其标志是人类思维方式的革命性变革。传统上人类决策是靠逻辑推理,而大数据和机器智能不是靠逻辑推理,而是靠大数据和智能算法帮助我们决策。这不可避免地会对未来经济产生巨大影响。《智能时代》对过去商业模式的历史变迁进行了总结:一是技术革命导致新的商业模式诞生;二是生产过剩,需求拉动经济增长的模式不可逆转;三是商业模式既有继承性又有创新性。第一次工业革命导致产品需要靠展示推销才能卖出去;第二次工业革命导致广告业兴起,展示推销的方式变成了广告,并促使商业链出现;第三次工业革命是信息革命,商业链得到发展,服务业的重要性凸显。以数据密集型科学为指导思想的大数据时代,毫无疑问会推动现存商业模式的改变,大数据和机器智能将引领第四次工业革命。蒸汽机、电气化、信息化是这样,大数据时代仍然会是这样,这是经济发展的规律。这种变化是革命性的,是震撼人心的。为了让读者更直观感性地认识这一点,吴军在书中与我们一起回顾了2017年5月23日至27日那场智能机器人战胜世界段位高手的围棋比赛。智能机器人以3∶0战胜人类顶尖棋手,靠的就是大数据和计算机算法。从经济角度思考这场围棋比赛,那就是大数据和智能机器人将会对现存经济模式产生深刻而广泛的影响。作者分析了机器人取胜的原因:其一,它采用的是机器学习与神经系统科学结合的学习算法;其二,它在强大的云计算系统中,通过统计模型在极短的时间内学习分析了几千万局围棋棋谱和围棋比赛的巨量数据,对于不同局势下该如何行棋拥有比人类更为准确的估计,找到了比基础棋谱更好的大数据棋路。这是人类大脑无论如何也无法完成的。机器智能里有两个关键技术是人脑无法获得的,第一个关键技术是把棋盘上当前的状态变成一个获胜概率的数学模型,是完全靠数据训练出来的;第二个关键技术是启发式搜索算法。作者认为下围棋这个看似智能型的问题,从本质上讲是一个大数据和算法的问题。在机器人的背后,是数据中心强大的服务器集群,它们获得智能的方法不是和我们人一样靠逻辑推理,而更多是利用大数据。因此,思维方式上逻辑推理“一霸天下”的历史或将改写。
机械思维将靠后站
机械思维是一种依靠逻辑推理的思维方式。如果机器人利用逻辑推理和围棋手对弈,是战胜不了人类的,但它另辟蹊径,用大数据把人类顶级棋手比下去了。智能机器人在下棋时没有用机械思维思考。作者认为,机械思维是前三次工业革命的科学方法论。它们和因果关系息息相关,是一种由“因”根据三段论推出“果”的逻辑推理方式。作者认为,机械思维是过去三个多世纪里人类总结出的最重要的思维方式,是现代文明的基础。西方把机械思维归功于牛顿的科学方法论,内容包括:第一,世界变化的规律是确定的;第二,世界变化的规律不仅可以被认识,而且可以用简单的公式或语言描述清楚;第三,这些规律“放之四海而皆准”。机械思维方式导致了工业革命。从牛顿时代开始接下来的三个多世纪里,人类越来越习惯于用机械思维描述一切、抽象一切,即抽象个体然后进行标准化,形成了用一个通用的方案来解决所有问题的方法论。作者认为,工业革命是牛顿提供了方法论,即机械思维,而瓦特则是利用机械思维方法论发明了蒸汽机,开启了西方工业革命的大门。因此,蒸汽机的成功不仅是技术的成功,更重要的是机械思维方法论的成功。从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了计算机信息时代,机械思维的局限性也越来越明显。人们发现,世界本身存在着很大的不确定性。吴军认为,机械思维的核心思想可以概括成确定性或者可预测性和因果关系。它促使人类历史上涌现了很多重大发明和发现。寻找因果关系是机械思维的一个特征,但事实上,人类找到真正的因果关系是一件很难的事,里面的运气成分很大。机械思维具有两面性——善于把握确定性而难以解决不确定性问题。由于数据之间的相关性在某种程度上可以取代原来的因果关系,因此可以帮助我们得到我们想知道的答案。由于近30年来互联网宽带和移动通信设备迅速发展,由此产生的海量数据和计算机算法改变了机械思维300多年的习惯思维,大数据和计算机算法的结合不可避免地产生了大数据思维。因此在“人机大战”中,机器人战胜了人类顶尖棋手。
大数据思维引领新时代
大数据思维可以帮助人们解决在机械思维状态下不能解决的一些问题。人机大战中机器人的取胜说明,未来是可预测的,不确定可以转化为确定。因此,大数据思维在新的工业革命中将引领新时代。吴军认为,大数据的基础是数据和信息的收集与汇聚,它们三者既有联系,又有区别。
首先,在谈数据前,吴军讲了数字和数据的联系与区别。他认为,数字仅是数据非常小的一部分,数据的范畴比数字要大得多,但它们是有联系的。互联网上的文字、图片和视频等是数据,医院里包括医学影像在内的所有档案是数据,公司里的各种设计图纸是数据,出土文物上的文字、图示也都是数据。人类发明了文字,记录了人类活动并留传后世,形成文明的传承。以语言和文字形式存在的内容是全世界各种信息处理中最重要的数据,在20世纪90年代互联网兴起之后,数据的获取变得非常容易。
其次,吴军区别了数据和信息。吴军认为,数据和信息还是稍有不同的。信息是关于世界、人和事的描述,它比数据来得抽象。人的大脑是一个信息源,从思考到找到合适的语句,再到通过发音说出来,是一个编码的过程,通过媒介如声道、空气、电话线和扬声器等传播到听众的耳朵里,经过了一个长长的信道,最后听众把它听懂,这是一个解码的过程。随着人类的进步以及处理数据和信息的能力不断增强,人类从数据中获取有用信息的本事越来越大,对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。而数据是知识的基础,只有善用数据,我们才能得到数据背后的信息。数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来。人类文明的进程伴随着“获取数据—分析数据—建立模型—预测未知”这一过程。虽然数据在文明进程中具有重大作用,但过去数据的作用常常被人们忽视。这里有两个原因,一方面是过去数据量不足,积累大量的数据需要的时间太长;另一方面是数据和所想要获得的信息之间的联系通常是间接的,只有通过不同数据之间的相关性才能体现出来。
最后,吴军区别了数据和大数据。前面已经说到数据的概念是指所有输入计算机并被计算机程序处理的符号介质的总称。大数据则不仅是数据体量大并能及时获得,同时还具有多维度、多样性、全面性、完备性等特征。从现象中观察总结数据、汇总数据并运用数据,是衡量人类文明发展水平的方式之一。随着人类的进步以及处理数据和信息的能力不断增强,人类从数据中获取有用信息的本事越来越大,这就是大数据应用的基础。数据在计算机时代记录了人类的行为,靠计算机去发掘、分析而得出人类没有写明的,存在于多次重复行为中的数据。这样的行为,仅有数据做不到,只有计算机也难成,需要两者结合才可以。这个加入计算机算法的数据被称为大数据。计算机信息技术和电子移动设备使我们可以从足够多的数据中发现各种事物的相关性,并把握事物发展的轨迹,依靠大数据提高对未来不确定性的把控能力。采用大数据的方法能够使计算机的智能水平大大提高,帮助人类解决许多问题。决定今后20年经济发展的是大数据和由之而来的智能革命,因此,从方法论的层面上看,大数据与300年前产生的机械思维一样,在大数据和机器智能大规模运用的情况下,会形成一种全新的思维模式,即大数据思维,从而完成思维模式的一次革命。
大数据思维会带来什么
按照大数据思维模式,我们做事情的方式与方法需要从根本上改变。回顾历史,展望未来,大数据引发的智能革命将以一种全新的方式展开。蒸汽机、电气化等技术革命都是生产力单点突破,从而带动社会全面变革,今天的大数据正面临这样一个突破,大数据和机器智能的普及会带来新一轮经济社会生活的全面变革。大数据思维所具有的解决不确定性的能力,可以为经济社会发展做出贡献。在大数据思维的指导下,数据科学家可以把过去解决不了的问题变成大数据问题来处理。温故而知新。吴军说,在历史上,一项技术带动整个社会的变革通常遵循一个公式,即“现有产业+新技术=新产业”。第一次工业革命是“现有产业+蒸汽机=新产业”,第二次工业革命是“现有产业+电气化=新产业”,第三次工业革命是“现有产业+摩尔定律=新产业”,而第四次工业革命将用两个公式简单概括,即“现有产业+大数据=新产业”“现有产业+机器智能=新产业”。大数据思维将带来一场新技术革命。大数据思维的核心是,通过数据之间相关性的演算分析,取代机械思维下的因果推理。但大数据思维和原有的机械思维并非完全对立,它更多是对后者的补充,是对逻辑思维办不到的事情提供有益的补充,消除事物的不确定性,从而解决问题。大数据和机器智能将从供给侧推动许多新产业的诞生,带动产业升级换代,满足人类社会的多样化、个性化需求,促进我们整个社会的升级和变迁。
这本书给我们提了个醒,面对即将到来的大数据时代,无论是国家还是个人,都应该建立大数据思维方式。跟上去则适者生存,掉下来则淘汰没落。凡事预则立,不预则废。普华永道预测,到2030年,大数据和人工智能将为全世界GDP(国内生产总值)贡献15.7万亿美元。数据是开发高级神经系统的必要条件,有数据才有可能更好地理解语言、识别物体并提出有用的见解。中国是世界第一制造大国,同时还拥有8亿~9亿网民,以及10亿以上的智能手机使用者,产生的海量数据是世界上独一无二的,这样的数据背景为中国发展大数据和机器智能提供了巨大的优势条件。基于这种数据优势,我们在第四次工业革命中存在非常大的弯道超车机会。目前,在大数据和机器智能领域,中国与世界先进水平的距离已经缩短,有些方面还略微领先,比如金融移动支付等。因势利导地用大数据思维完成中国新经济模式的变革是完全有可能的。在这种背景下读一读《智能时代》一书,可以帮助我们更好地理解即将到来的大数据思维新时代。