大数据技术基础
上QQ阅读APP看书,第一时间看更新

1.5 大数据发展现状和趋势

当前大数据应用主要以企业为主,企业成为大数据应用的主体。大数据的应用已广泛深入到我们的生活,涵盖医疗、交通、金融、教育、体育、零售等各行各业。在众多大数据应用领域中,电子商务、电信领域应用成熟度较高,政府公共服务、金融等领域市场吸引力最大,其他领域也是方兴未艾。随着互联网普及,互联网+医疗、互联网+工业制造等得到越来越大的推广,更多的数据将会得到记录,数据源范围也正不断扩大。据预测至2020年全球所产生的数据量将会达到40万亿GB (约为40EB),将催生强大的大数据存储、处理与分析需求。

1.5.1 大数据现状分析

全球大数据解决方案正不断成熟,各领域大数据应用全面展开,为大数据发展带来强劲动力。全球大数据市场结构从垄断竞争向完全竞争格局演化,企业数量迅速增多,产品和服务的差异度增大,技术门槛逐步降低,市场竞争越发激烈。权威机构发布的大数据分析报告显示,2015年全球大数据厂商的产品和服务营收规模已经高达238亿美元,2016年大数据市场规模为340亿美元,2017年大数据市场规模为530亿美元,年增长率达40%,远超此前IDC的预测。

大数据已上升至我国的国家战略,国内大数据产业发展非常迅速,行业应用得到快速推广,市场规模增速明显。2016年国内大数据产业市场规模已突破100亿元,2017年市场规模超过200亿元。专家预计未来3~4年,中国大数据市场规模增长率将保持在年均45%以上,2018年营收规模有可能突破300亿元,如图1.7所示。

图1.7 2011~2020年中国大数据市场规模增长趋势图(此图来自首席数据官联盟)

目前中国大数据产业仍处于起步阶段,产业供给远小于市场需求,且已经出现的产品和服务在思路、内容、应用、效果等方面差异化程度不高,加之缺乏成熟的商业模式,导致大数据市场竞争不够充分。国内大数据发展还面临诸多问题,主要表现在如下几个方面。

1.数据孤岛问题突出

当前,由于政府部门相互间信息不对称、制度法律不具体、缺乏公共平台、共享渠道等多重因素,导致大量政府数据存在“不愿开、不敢开、不能开、不会开”的问题,而已开放的数据也因格式标准缺失无法进行关联融合,成为“开放的孤岛”。

2.大数据安全和隐私令人担忧

数据资源相关配套法律法规和监管机制尚不健全,多数企业对数据的管理能力不足。在各种数据与个人隐私信息“裸奔”的大数据时代,出台关于信息采集与信息安全保护的基本法规迫在眉睫。

3.人才缺乏,大数据技术创新能力不足

相关数据显示,未来3~5年,中国需要180万数据人才,截止2017年5月中国大数据从业人员只有约30万人。此外,技术壁垒、产品和解决方案不成熟等也限制了大数据应用创新的成效。大数据领域的高端人才稀缺。高端人才来源主要以海归人员和传统行业跨界人才为主,完全满足不了目前国内市场的大量需求。大数据人才分布如图1.8所示。

图1.8 大数据人才分布(此图来自首席数据官联盟)

大数据人才目前主要分布在移动互联网行业,其次是金融互联网、O2O、企业服务、游戏、教育、社交等领域,涉及ETL研发、Hadoop开发、系统架构、数据仓库研究等偏软件的工作,以IT背景的人才居多。随着大数据往各垂直领域的延伸发展,未来大数据领域的需求会转向跨行跨界的综合型人才,以及商务模式专家、资源整合专家,以及大数据相关法律领域的专家等,对统计学、数学专业的人才,主要从事数据分析、数据挖掘、人工智能等偏算法和模型工作的人才需求同时加大。

针对大数据人才供应不足的现象,各大高校和各种培训机构也开始强化大数据人才的培养。截至2018年3月,全国共有两百多所大学获批建设大数据专业,大数据人才培养正在提速。但培养大数据人才需要时间,短期内大数据领域的高端人才仍然会呈现出供不应求的现象。

1.5.2 大数据发展趋势

随着大数据相关的基础设施、服务器、软件系统和理论体系的持续发展,目前大数据分析方面的解决方案已经逐渐成熟,并且越来越普及,而不像前几年那样还是少数科技极客眼中的新领域。随着技术的成熟,自助和自动化的信息服务也将越来越受到重视,大数据分析工具和相关的解决方案会变得越来越简单易用。

1.技术发展趋势

(1)数据分析成为大数据技术的核心

数据分析在数据处理过程中占据十分重要的位置,随着时代的发展,数据分析会逐渐成为大数据技术的核心。大数据的价值体现在通过对大规模数据集合的智能处理获取有用的信息。这就必须对数据进行分析和挖掘,而数据的采集、存储和管理都是数据分析的基础步骤。数据分析得到的结果将应用于大数据相关的各个领域,未来大数据技术的进一步发展,与数据分析技术是密切相关的。

(2)广泛采用实时性的数据处理方式

人们获取信息的速度越来越快,为了更好地满足人们的需求,大数据系统的处理方式也需要不断地与时俱进。大数据强调数据的实时性,因而对数据处理也要体现出实时性,如在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。将来实时性的数据处理方式将会成为主流,不断推动大数据技术的发展和进步。

(3)基于云的数据分析平台将更加完善

近年来,云计算技术的发展越来越快,与此相应的应用范围也越来越广,云计算的发展为大数据技术的发展提供了一定的数据处理平台和技术支持。云计算为大数据提供了分布式的计算方法以及可以弹性扩展、相对便宜的存储空间和计算资源,这些都是大数据技术发展中十分重要的组成部分。此外,云计算具有十分丰富的IT资源,分布较为广泛,为大数据技术的发展提供了技术支持。随着云计算技术的不断发展和完善,平台的日趋成熟,大数据技术相应也会得到快速提升。

(4)开源将会成为推动大数据发展的新动力

开源软件是在大数据技术发展的过程中不断研发出来的,这些开源软件对大数据各个领域的发展具有十分重要的作用。开源软件的发展可以适当地促进商业软件的发展推动商业软件更好地服务程序开发、应用、服务等。虽然商业化软件的发展也十分迅速,但是二者之间并不会产生矛盾,可以优势互补,从而共同进步。开源软件自身在发展的同时,也为大数据技术的发展贡献力量。

2.产业发展趋势

纵观国内外,大数据已经形成产业规模,并上升到国家战略层面,大数据技术和应用呈现纵深发展趋势。面向大数据的云计算技术、大数据计算框架等不断推出,新型大数据挖掘方法和算法大量出现,大数据新模式、新业态层出不穷,传统产业开始利用大数据实现转型升级。传统产业利用大数据主要有如下五种方法。

(1)以时效性更高的方式向用户提供大数据。在公共领域,跨部门提供大数据能大幅减少检索与处理时间。在制造业,集成来自研发、工程、制造单元的数据可以实现并行工程,缩短产品投放市场的时间。

(2)通过开展数据分析和实验寻找变化因素并改善产品性能。由于越来越多的交易数据都以数字形式存在,企业可以收集有关产品或用户的更加精确和详尽的数据。

(3)区分用户群,提供个性化服务。大数据能帮助企业对用户群进行更加细化的区分,并针对用户的不同需求提供更加个性化的服务,这是营销和危机管理方面常用的方法,对公共领域同样适用。

(4)利用自动化算法支持或替代人工决策。复杂分析能极大改善决策效果,降低风险,并挖掘出其他方法无法发现的宝贵信息,此类复杂分析可用于税务机构、零售商等。

(5)商业模式、产品与服务创新。制造商正在利用产品使用过程中获得的数据来改善下一代产品开发,以及提供创新性售后服务。实时位置数据的兴起带来了一系列基于位置的移动服务,例如导航和人物跟踪等。