1.2.1 大数据
大数据是人类提升对整个世界洞察力的核心手段,用数据量化来认知世界、描述世界、洞察世界与改造世界。大数据通过数据与语言符号来尽可能准确地描述世界,语言可以理解为通俗化的符号集合,数据主要解决客观描述问题,而语言主要解决主观共鸣问题。
在大数据生态圈逐渐成熟的演化过程中,数据本身的开采深度与应用层次也在不断深化。数据层次可分为五层:表一层是通用公开大数据,表二层是需要登录才能获取的垂直领域大数据,里一层是产业私有数据,里二层是用户个体画像数据,最里层是个体基因与生物数据。其中,表层数据是机器可以公开采集的数据,且数据应用企业可以通过技术手段对数据进行整合;里层数据则是需要个人授权才能合法获取与分析的数据。
五层数据关联模型由表及里、从通用到垂直、从企业机构到个体用户、从全局图景到基因画像,不断延伸数据触角。在强化公有数据采集整合基础设施的同时,需要引导更多产业领域私有数据的聚合,通过构建多层次数据闭环与通用化、一站式数据平台,不断驱动行业领域的应用创新。
大数据包括结构化数据、半结构化数据和非结构化数据,非结构化数据逐渐成为大数据的主要部分。IDC(国际数据公司)的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据是互联网发展到现今阶段的一种表象或特征,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新背景下,这些原本看起来很难收集和使用的数据开始易于被利用,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
想要系统地认知大数据,必须全面而细致地分解它,着手从三个层面来展开。
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线,在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。