序一
大数据需要回归本质
最近(会议召开时)在网上有两篇关于大数据的文章,引起了我的关注。一篇是讲既不要神化大数据,也不要把大数据妖魔化。意思是由于互联网、传感器、移动智能终端等技术的发展和应用的普及,数据越来越多,在经济社会各个领域发挥重要作用的同时,公民个人隐私无处可藏,质疑大数据公司对信息安全的重视不够、隐私保护不够,甚至以个人数据牟利。另一篇是某论坛上一个嘉宾的讲话,中心意思是大数据只有回到企业具体场景才有商业价值。
这使我回想起作为大数据元年的2011年也有两篇类似的文章,第一篇文章刊登在《科学》杂志上,核心意思是大数据越来越多,我们处于无所不在的大数据的包围下,在实现其价值的同时,也可能产生很多弊端,与不要神化大数据和妖魔化大数据的论点相近。第二篇文章是一个研究报告,这个报告的题目是“大数据是创新、竞争、生产力的下一个前沿”,这和大数据要回到企业的具体场景来实现商业价值一脉相承。
时隔六年,业界和学术界在讨论着相同的话题,说明大数据的发展存在困惑,发展的规律和本质依然没有形成共识,实践中有很多盲点。我们需要对为什么发展大数据、如何发展大数据、大数据发展的基点或基石是什么这样的基本问题做出回答,让大数据的发展回归本质。
大数据的本质、发展大数据的基点就是大数据在解决问题的过程中贡献的价值。所谓问题就是一个地方、一个企业、一个机构实现其既定发展目标的各项任务,就是为完成这些任务,当前迫切需要解决的重点和难点问题。所谓价值就是通过大数据,我们能更好地认识问题、解决问题,问题求解路径不清的清晰了,问题解决的质量更好、成本更低、更加可持续,提升我们的创新能力和竞争力。
大数据产业生态联盟应该回到这样的基石、基点,然后去寻找具体问题求解过程中发挥大数据作用的路径,围绕这样的路径去考虑产业链、生态链的发展。从这样的角度看,我们需要推动三个重要转变。
第一个转变是从数据出发寻找它的价值,转向从问题出发,确定需要什么数据,这些数据又如何获取、如何与问题求解过程结合。从数据出发,寻找并实现它潜在的价值是重要的,但不是大数据的主流,更不是通过大数据实现经济社会转型升级这个最重要价值的落脚点。落脚点是针对经济社会发展的全局,针对一个个地区、机构、企业要落实的任务、要解决的问题,确定系统边界、构成要素和流程,分析究竟需要什么数据,这些数据对于认识这个问题和解决这个问题要发挥什么作用,什么样的数据精度、频度、颗粒度才能满足问题求解的需求,而不仅仅是通过大数据发现什么问题。我们通过大数据来找到对问题的认识和解决办法。这个转变是最根本的转变,如果不解决它的话,大数据就失去了健康、可持续发展的方向。
可以用天气预报和雾霾治理来具体解释这一转变的特殊重要性。例如,要预报奥体中心附近5公里未来一小时的天气,则需要依据大气环流的规律,影响北京地区的区域气象特征,依据对奥体中心附近影响气象条件的各项精准数据。大气环流是决定天气预报最主要的变量,基于地球气候动力学模型,而这个模型是集人类数千年的观察、积累数百年的气象资料,并由科学家对这些现象和资料进行创新性思维和逻辑推理而总结出来的。大气环流及由此确定的气压场变化,决定了预报的大局,与北京的地形、云量、风向、风速等气象要素的信息结合起来,才是北京地区的天气预报。奥体中心周边一小时局部预报,更需要利用该地区部署的多普勒雷达提供的精确的影响天气的数据,如局部的气流、云的性质与变化等。这些数据具备之后,才能根据模型做出预报。而局部的精细模型是根据当地数据的长期积累形成的,包括当地楼群与风向、风力关系的数据。结论显然是明确的,没有围绕天气预报进行的长期数据积累,以及在此基础上形成的理论和各种模型,没有与特定预报要求一致的数据来源,奥体中心未来一小时天气预报就是无源之水,做不好。要精准预报北京一个局部的霾,治理北京地区的霾,同样需要关于北京地区霾形成的理论;在理论指导下,通过与预测模型一致的构成要素的长期、系统、精准的数据,建立模型;根据模型的需求,提供系统、及时、精准的数据,才能做出预报。而治理则是在这个基础上,进一步抓住关键的霾形成机理,在一个个精准的源头采取措施。认识、解决北京的雾霾问题,需要从雾霾形成的机理出发,从产生霾的具体点的分布出发,需要什么样的数据,部署什么样的传感器,传感器怎么运作,性能要求是什么,如何精准、及时传送到处理中心。根据这些非常精细的数据支持,我们才能建立理论、建立模型、进行分析、做出预报或治理的决策。
第二个转变是信息处理从基于符号的处理为主转向以语义为主的处理。为什么大数据重要,不是因为数量多、处理技术要求高,而是其中的含义对解决问题有作用、有价值。信息的符号特征及其内在的含义,即语义之间的复杂关系,使我们经常行走于符号处理的科学性、复杂性,忽视了语义才是背后真正需要的东西。
人的信息处理是全语义处理。无论是遗传过程的信息处理、运动过程的信息处理,还是认知过程的信息处理,都是通过感知、传输和处理过程的特定生化功能和结构,保证了语义性,不能保证语义性的,不接受、不处理,参见即将出版的拙作《智能原理》。自动化系统的信息处理是语义处理,感知、反馈、控制都是围绕特定的目的而进行,与特定需求无关的信息视而不见、听而不闻。与AlphaGo Fan和AlphaGo Lee相比,AlphaGo Zero没有输入数量众多的人类棋谱。完全基于原理和算法,从随机下子为起点,用比较短的时间达到了百战百胜,完美超越了它的前辈。显然,AlphaGo Zero的初次输入的基于围棋获胜原理的学习算法质量明显高于它的前辈——AlphaGo的初次输入质量,真正把握了如何遍历围棋封闭解空间,降低可能路径不确定性的方法,提出了有效的学习策略。本质的不同就是AlphaGo Zero不再从大量围棋棋谱的“符号”中获取下棋的原理和策略,而是直接基于已经总结出来的原理和策略对弈,也就是关于下围棋如何获胜的“语义”,通过对弈,确定每一个初始状态下,下一步棋落点的获胜概率,根据胜率确定落子和棋局判断,直奔语义,无须在大量的符号中挖掘、学习。
第三个转变是从重数量到重质量。不管是数据还是大数据,数量是很重要的。没有数量,没有AlphaGo Fan和AlphaGo Lee对数以千万计的人类棋谱及其自身对弈的总结,AlphaGo Zero真正把握围棋本质的知识、原理、策略(包括学习策略)就总结不出来,也就没有超越其前辈的光辉业绩。但是,数据的质量更加重要。如果AlphaGo Fan和AlphaGo Lee利用的不是人类高手的棋谱,而是低水平的业余一段也到不了的棋手的棋谱,对于围棋原理的知识也来自低水平棋手,那么再多的数据、再高明的算法也不可能达到AlphaGo Zero的水平。
工业自动化、智能化的过程需要的数据量十分大,没有量,模型出不来,算法出不来。但是在发展过程中,需要逐渐把质量放在更重要的位置。因为,我们不是需要一堆数据,而是需要一个能将控制或判断需要的信息精准、及时获取的传感器,这才是管用的、有质量的数据。工业大数据必须把质量放在第一位,因为我们是为了认识、解决问题而采集数据,这些数据使我们认识问题和解决问题的代价变小了,才能有价值。如果你用了大数据以后,用了一系列算法、模型之后,认识问题、解决问题付出的代价比原来还要大,那是负价值,不是正价值。要把这样的过程中付出的成本变得更小,我们必须从数据的数量向数据的质量转移。
大数据的本质、核心、基础是数据本身与问题的相关性、获取的信息在问题求解过程中产生的价值。把数据和国家、企业、社会服务的各项事务连接起来,为这些事务的执行提供质量更高、成本更低、更加便捷的解,是我们将大数据发展落到实处的基本点。
杨学山
北京大学教授、工业和信息化部原副部长、中国大数据产业生态联盟荣誉顾问