上QQ阅读APP看书,第一时间看更新
二、大数据
大数据是一个泛概念,其归根结底还是数据,是一种泛化的数据描述形式。从量级上看,大数据主要表示数据规模超过传统数据规模的数据,它更倾向于表达网络用户信息、新闻信息、社交媒体信息等数据规模超过TB级的数据信息。从应用上看,不同领域、不同来源的数据融合分析和应用也可被看作大数据,即大数据体现的是大规模数据的融合分析。大数据的“大”体现为数据信息是海量信息,且在动态变化和不断增长。
大数据的数据信息主要来自互联网,具有巨“大”的商业价值。通过大数据分析等手段,从那些之前不被重视的数据中能够挖掘出隐含的知识和新趋势。例如,网络购物平台可利用大数据预测需求、供给和顾客购买习惯等,做到精准采购、精准投放;交通导航系统利用大数据可以预测堵车和通行时间。
IBM(国际商业机器公司)从5个维度来刻画大数据,即大量(Volume)、高速(Velocity)、多样性(Variety)、低价值密度(Value)、真实性(Veracity)。大量主要指的是数据量巨大,大数据涉及的数据主要来源于互联网,涉及各行业、各领域,因此,数据体现为海量性和不断积累。高速主要指数据的获取速度,众多的网络终端和传感器终端以及有效、高速的网络,使数据的高速获取成为可能。多样性主要指的是数据来源和数据种类的多样性,最终体现的是数据的异构性和处理的复杂性。低价值密度主要指的是海量数据中的知识价值密度低,需要采用有效的分析手段来挖掘数据价值。真实性主要指的是数据的质量问题,大数据分析过程中的数据质量直接决定了分析结果的有效性,因此数据的真实性问题与大数据应用的效果密切相关。