大数据冲击各行各业
我们作为个人不仅是数据的接收者,也是数据的生产者。一方面我们下载、阅读、浏览,因此我们在消费数据;另一方面,我们又上传、撰写、参加各种活动,各种活动就可以留下我们的很多痕迹,因此我们也在留痕,我们实际上又在产生数据。在这样一个既是消费又是生产的环境中,我们从方方面面已经和数据分不开了。
大数据已经在冲击各行各业。
比如经济金融领域。股价的预测其实一直是个难题,传统的股价预测,实际是通过一些专业的模型来估计风险、收益,评价企业,有专门的理论和方法来估计股价。但是影响股价的除了这些因素之外还有人们的“期望”,而估计“期望”是非常难的,因为“期望”既涉及外部因素环境,又涉及心理预期。现在一个新视角是考虑公众关注,比如搜索。若对某些企业比较关心,可能就搜索其企业状况、新闻事件,这种搜索体现了大众对于具体企业的股票价格和价值走向的关心。这是一个跟过去特别不同的角度,因为这不是特别专业的角度,它是从专业外人士的行为来估计的角度。这种关注和搜索与股价的走势有相当强的关联度。这和几年前谷歌通过搜索来估计流感是一样的,实际上它不是采用所谓流行病学的专业模型,而是某段时间很多人有症状,头疼、咳嗽、吃了什么药,大家有很多信息的交换,这种交换的强度、交流的走向,恰恰可能跟流行病的流行模式非常相关。所以,我们也可以从搜索的角度来估计它和股价之间的影响和关联度。但是,要特别指出,虽然搜索和股价的走势有联系,但是仅凭这一个因素来估计股价是不够的,还有大量的因素需要专业模型。因此,一方面能够扩展或者冲击传统的定式和视角,另一方面应该把其他专业视角引入进来,大数据的股价预测应该是包括内部与外部、专业与非专业因素的模型构建。
大数据也开始改变会计学。传统的会计学衡量企业的状况是通过三张报表:资产负债表、现金流量表、利润表,这三张报表反映了一个企业的运营能力、偿债能力和盈利能力。虽然这三张报表是非常基础和非常重要的,但是大家突然发现,有一大类企业是高风险的,特别是一些IT企业、创业企业、新行业企业,长期负债,但是同时又有非常高的市值,人们又有非常强的忠诚度,如果用这三张报表衡量,似乎不能完全体现它的价值,也就是说,传统会计学的三张报表可能就不够用了。因此,人们在呼唤“第四张报表”的出现,业界和学界都在做研究。长周期、高负债、高不确定性企业的价值可能受到的是口碑、忠诚度、品牌、公允价值,包括无形资产的影响。这些东西我们可以称之为数据资产。所以,这是从会计学的角度来看我们碰到的一个冲击,很多新的现象呼唤新的模型、新的理论框架出来。
大数据也在为体育界带来变革。现在我们都在积极筹备冬奥会,我们国家有少数冰雪项目水平比较高,但总体的水平不是特别高。主要的问题是长期的传统做法比较粗犷、比较经验型。冰雪项目中有一大类是姿态类项目,运动员的关节、角度、力量和跳跃的高度、旋转的速度以及动作的完成质量密切相关。现在大家已经意识到这个问题,因此有些队会用手机照一些照片、视频,但是数据粒度没有到关节这项,也没有到姿势、力量和角度上,所以数据粒度不够。第二,视角也不够,可能需要更加专业的采集设备、更加专业的还原设备来完成。比如现在简单的二维图像应该变成动态三维的还原,并且可以分解,这样就可能帮助运动员提高总体的竞赛水平。
别的项目,像篮球、像NBA就做得非常好,通过收集肌肉、血液、心脏、动作、战术、团队等全景式的数据来帮助训练和比赛,因为这些因素都有可能影响整个比赛的结果。像垒球、网球的角度、落点、战术都有不同的大数据分析。可见,科技体育这几年有巨大的空间,传统的师傅带徒弟、师傅的传帮带确实非常重要,但是应该有更细粒度、更加多角度、更加全景式的手段,采用大数据技术来提升整体的竞赛水平。
大数据在艺术上也有很多影响。传统绘画,不管是古典的还是现代的画,都有自己的素材和表现形式。现在出现了一种新的素材——数据素材,也就有了新的表现形式。比如飞机航班的数据轨迹就可以构成一幅新颖的画。由数据作为素材,有新的视角进来,作为一个整体的新型创作出现。
大数据已经影响到经济、管理、体育、艺术等领域,在其他的领域也有非常多的应用,比如农业就有蔬菜革命、精准扶贫,这些都是利用大数据的例子。在医疗健康领域,医院内医院外,得病和未得病之间的关联,也是大数据问题。文学上通过大数据技术也可以对一些词语、作者、关系、背景等进行分析。
哲学里一个重要的方向是认识论和方法论,这里包括我们近些年提炼出来的新的研究成果。传统的哲学认识论追求探索因果关系,因此基本叫作模型驱动范式,也就是说通过刻画变量之间的联系,比如自变量和因变量,以及通过构建这两个之间的函数关系,比如线性、非线性等,可以知道一个自变量一个单位的变化会导致因变量有几个单位的变化,这里试图反映变量之间的逻辑和因果上的机理。但是,这个模型驱动的范式在大数据时代会受到一些挑战,或者说它碰到一些问题时会捉襟见肘。比如,当数据变量的组合数特别多时,当很多变量是潜变量和隐变量时,当很多的变量虽然重要,但是不可测不可获时,还有当数据的样本规模特别大时,这些问题用传统的模型驱动的做法去解决就会比较困难。因此,就出现了一个新的范式转变,催生了大数据驱动范式(8)。这个范式想表达的是,对于管理决策,我们希望能够实现既有关联又有因果的诉求,这个新范式简单地说由外部嵌入、技术增强和使能创新三方面构成。外部嵌入是指引入视角之外的变量,有些变量我们知道重要,但是没有办法放进模型里。比如我知道股价,我预测股价有个计量模型,但是如果今天这个公司出了一个事情,或者是上面有个新闻,或者行业里有个新的政策,我们觉得可能会影响股价,但是这些变化很可能是视频、语音或者文本,没有办法融入到传统的模型中去。所以,需要引入外部视角。这些图像、视频、新闻文本要引入进来,就是要使我们引入的变量可测、可获,这就是第二条,技术上要增强。当这些变量引入进来的时候,我的变量空间就发生了变化,这个时候我们可能会研究新的X到Y的转换,也就是变量关系和映射要重新定义和审视,这就是使能创新。这是大数据驱动范式框架的三个方面。
历史学其实也和大数据密不可分。传统的历史记录内容都是帝王将相、英雄豪杰、国家、政治、重大的军事事件,等等,很难在历史中看到平民和我们自己。一个是过去的粒度不够,第二手段也不行,存不下来。大数据环境下就可能自下而上反映历史。比如国家图书馆互联网信息战略保存项目(9),和新浪合作,把新浪公开的相关博客文章作为历史资料记录下来,通过自上而下与自下而上的史学观的融合,使得我们可以在更细粒度上反映历史和社会,同时也可以获得更加全面的历史画面。
法律也和大数据相关。比如下载一个APP,凭什么问我要这么多权限?我不给权限行不行?没有办法,不给就不能用。我在网上购物、浏览,我的痕迹、数据脚印,都被公司采集了,我有没有权利说你把我的这些痕迹抹掉、遗忘掉?这就是被遗忘权。所谓被遗忘权是指数据主体有权要求数据控制者永久删除有关数据主体的个人数据,有权被互联网遗忘,除非数据的保留有合法的理由。2018年欧盟正式实施《通用数据保护条例》(10),强调了被遗忘权,我们国家2018年的高考语文Ⅱ卷一篇阅读文章的题目,也是要考生来思考、评论这个被遗忘权的问题(11)。这也是由大数据激发出来的新问题,对传统的法学研究产生了新的挑战,或者说带来了新的发展空间。