1.2.3 大数据:数字时代
2001年,美国高德纳咨询公司分析员道格·莱尼(Doug Laney)指出数据增长的三个挑战和机遇:量(volume),即数据多少;速(velocity),即资料输入、输出的速度;类(variety),即多样性。在莱尼的理论基础上,IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(velocity),即处理速度快;第四,真实性(veracity),即追求高质量的数据。目前数字化存储的信息占全球信息数据总量的98%,只有2%的信息存储在报刊、胶片和磁带上面。大数据最重要的应用就是数据挖掘。大数据不仅显现数据间的因果关系,而且显现数据的相关关系,使得处理海量非结构化数据成为可能。美国密歇根大学研究人员设计出一种利用“超级计算机以及大量数据”来帮助警方定位那些最易受到不法分子侵扰片区的方法。具体做法是,研究人员通过大量的多类型数据(从人口统计数据到毒品犯罪数据,再到各区域所出售酒的种类、治安状况、流动人口数据等),创建一张波士顿犯罪高发地区热点图。同时,还将相邻片区等各种因素加入数据模型中,并根据历史犯罪记录和地点统计并不断修正所得出的预测数据。大数据将“死的数据”变为“活的信息”,为科学决策提供依据。
大数据还有助于舆情的分析和研判。越来越多的社会行为通过互联网表达和传播,社交媒体和微信朋友圈成为追踪社会行为的重要平台。通过舆情监控收集到的数据可以了解民众诉求和社会情绪的倾向,预警和遏制社会群体性事件的发生。美国政府通过监测Facebook网站的用户情绪来了解人们对事件的态度和新闻偏好,了解人群当中是否存在情绪感染的问题。大数据可以掌握舆论现状,包括正面的、负面的、积极的、消极的。还可以预测舆论的走势,提高舆论引导的精度和准度,增强针对性和时效性。美国国防部在2010年2月27日就出台了一项社交媒体官方政策,主要是考察Facebook、Twitter等社交媒体上的人们如何相互联系,思想如何传播,分辨哪些是不利于美国的信息,是蓄意发的,还是随意发的,是否是有组织的行为等,以此来决定采取措施和实施影响,包括组织水军引导舆论倾向等。美国中央情报局还会通过大数据追踪恐怖分子和监控社会情绪。在舆情监测中,大数据能够分析了解有多少人和哪些人正在从温和立场变得更为激进,并预测出谁可能会采取对某些人的有害行动等。