大数据在智能物流中的应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 大数据的基本内涵

随着大数据的发展和广泛应用,数据的产生方式和数据变量发生了巨大的变化。大数据作为一种抽象化名词来指代海量的数据。简而言之,大数据是既庞大又复杂的数据集合,是传统方法无法获取、存储、处理、分析的数据。基于此,一项突破传统数据分析方法的技术出现了,那就是大数据技术。

麦肯锡对大数据做出了如下定义:大数据是指那些大小比常规数据库工具的获取、存储量等更大的数据集。大数据与小数据的思维差异如图1-1所示。

img

图1-1 大数据与小数据的思维差异

大数据的内涵通常用“4V”特征来表述。

第一个V是Volume,就是数据体量大,大到运用常用的数据库软件无法对其进行管理。现在来看,基本上是几十TB到几个PB数量级。当然,随着技术的进步,数据不断积累,这个数值会变得更大,有人预测5年后也许只有EB数量级的数据量才称得上大数据。

第二个V是Variety,是指数据类型繁多,来源各异。有来自网络的网页、日志、图片,有来自传感器的监测数据、视频数据、音频数据、位置信息,还有来自日常运营系统的各类信息等。

第三个V是Velocity,速度快。它包含两个含义。一是数据产生和更新的频率快,数据量增长速度快。如今,只需要两天就能产生自人类文明诞生以来到2003年所产生数据的总量。谷歌搜索引擎每个月处理的数据量超过400PB;百度每天大约要处理几十PB数据;淘宝上有10亿多件商品,每天发生数千万笔交易,产生约20TB数据。各个城市的视频监控每时每刻都在采集巨量的流媒体数据。二是响应快,要有很高的时效性。大数据的处理要遵循1秒定律,就是在1秒内出结果。

第四个V是Value,价值性。一是价值密度低,在数据总量中有用数据所占比例低。以视频数据为例,在连续不间断的监控图像中,可能有用的数据仅有一两秒。二是整体价值高,设想一下,研究问题领域相关的、全部的、真实的数据被汇集起来形成的大数据集,其价值是何等珍贵。三是潜在价值大。大数据应用就是在特定场景下利用大数据分析技术挖掘大数据中存在的潜在价值,大量数据的价值尚未被挖掘利用,大数据挖掘就像“沙里淘金”。