基于大数据的经济分析
上QQ阅读APP看书,第一时间看更新

第一节 大数据的背景及技术发展趋势

一 大数据的基本概念

进入21世纪以来,信息化、数字化席卷全球,人类社会正在被信息技术所渗透。特别是互联网、物联网、云计算以及移动互联网等新兴技术的蓬勃发展和广泛应用,海量数据随之产生。这些数据数量巨大,增长迅速,很快我们的数据就不能再以G或T为单位来记录,开始使用PB(1000个T)、EB(100万个T)或ZB(10亿个T)等单位。据IDC估计,截至2012年,自人类发明印刷术以来,所有生产印刷品数据量仅有200PB,而整个世界中人类诞生以来说过的所有话加起来,数据量估计仅有5EB。而据美国IBM公司的研究称,人类文明的整个历程中,人类产生的全部数据中,有90%以上的数据是过去两年内产生的,并且到2020年,全世界所产生的数据量将超过40ZB,预计到2025年全世界产生的数据量将达到163ZB,呈爆发式增长。

不仅数据量大、增长速度快,而且数据种类多,以往我们设计了许许多多的信息系统来收集结构化数据,这部分数据仅占所有数据的很小一部分,而在今天的世界上,80%以上的数据恰是非结构化或半结构化的,比如今天我们每个人常用的微信、手机图片视频以及各种物联网设备所产生的数据,等等。对于这种海量数据的处理,给我们带来了巨大的挑战。

在这种背景下,一系列新兴技术应运而生,以Hadoop、Spark等技术为代表,使我们能够通过分布式存储和技术来处理大数据。因此大数据是指我们在各种新兴信息技术支撑下,针对海量、复杂、散乱的数据,利用全新的数据分析处理方法来智能发现有价值信息的技术统称。这些行业产生了许多大数据的概念,为避免大数据的概述混乱,美国Gartner公司对大数据概念进行了明确定义:(1)大数据具有“3V”的特征,即数据量大、增长进度快,数据种类多;(2)采用创新且经济实用的新方法和技术来处理数据;(3)通过大数据增强我们洞察力和决策能力。

二 大数据基本特点

大数据具有鲜明的特点,主要包括:

1.海量的数据规模(Volume)。是指在以前的技术环境下,远远超过任何一种单体计算机设备能直接存储、管理和使用的数据量。

2.快速增长且动态变化的数据(Velocity)。由于新技术的应用,数据快速增长,且由于实时记录,相互关联,能将看起来不相关的数据联系在一起,比如电梯日志或每户用电量能够预测空置的房地产。

3.数据类型多(Variety)。描述特定事物或事件特征或规律的数据是以多种形式存在的,不仅包括结构化数据,更多的是文本、图片、多媒体等非结构化数据。

4.隐含巨大的数据价值(Value)。有人形容大数据就是未来社会取之不尽,用之不绝的“石油”资源。看起来杂乱无章的大数据,但却可能蕴含着巨大的价值,大数据的价值将在不同目的的应用场景中体现。

5.智能化数据洞察力(Intelligence)。大数据的应用,改变了我们观察世界的方式,我们正在从实验范式、理论范式、仿真范式的研究范式,走向数据密集型的科学研究范式(俗称“第四范式”),我们应用大规模的已知数据,通过机器计算,发现我们使用常规方法得不到的可信理论,进而帮助人们发现隐藏的真相。

三 大数据政策

在大数据出现以来,在全世界范围内,通过运用大数据来有力推动经济社会发展、进一步完善社会治理、提高各国各地区政府服务和监管能力成为大家的共识,如欧美、日本等发达地区、国家都于近年来相继出台并实施大数据战略性政策,由政府出面引导推动大数据发展和应用。我国经过多年发展,互联网用户特别是移动互联网用户规模已经位居全球第一,而且物联网技术正在开始得到广泛应用,这些基础使我国拥有巨大的数据资源和广阔的应用市场,大数据技术也取得突破,发展大数据正当其时。

国务院于2015年9月印发《促进大数据发展行动纲要》(以下简称《纲要》),从国家政策层面推动大数据发展。大数据被寄予厚望,将在推动经济转型发展,重塑国家竞争优势,提升政府治理能力等方面发挥重要作用。纲要明确了大数据发展的总体目标、主要任务和工作机制。[2]

在《纲要》的指引下,我国大数据产业蓬勃发展,应用越来越广泛,成为提升政府治理能力和推动经济转型升级的利器。全国各行业,各省市都在掀起大数据建设的浪潮。

四 技术发展趋势

大数据作为一种新兴产业,这个产业发展的关键,不在于拥有数据,而在于通过提高对大数据的“处理能力”,实现对原始数据的“增值”。不管是从数据量还是成本角度考虑,大数据使我们必然无法只采用单台计算机进行处理,即便是采用大型机,因此大数据技术必须采用分布式架构。实时的大数据分析需要用到从数十至数十万台的服务器来同时高效运作。在这种情况下,必须采用分布式计算、分布式数据库、云存储、虚拟化技术等云计算技术,因此有人说大数据与云计算就像硬币的正反面,二者是紧密结合在一起的。目前世界上大数据技术已经取得长足的进步,基于Hadoop、spark等许多开源优秀技术,建立了大规模并行处理计算、分布式数据库、分布式文件存储系统、虚拟化云计算等方便易用的基础技术平台,对大数据产业的发展起到极大的促进作用。