守望与思索:人文清华讲坛实录IV
上QQ阅读APP看书,第一时间看更新

大数据的数据特征

那么什么是大数据?可以从四个维度来理解,即4V:Volume(规模)、Variety(多样)、Value(价值)、Velocity(速度)。大家对这四个维度没有什么大的争议,但是对它们含义的理解还是有相当不同的认识。

第一是规模,我们称之为超规模。大数据规模会很大,但是没有绝对的量纲,没有说一定要达到多少G、多少P、多少Z才是大数据,这个不一定,因为大数据的大规模和问题、领域有关。只要这个大的规模超出了这个领域和问题的传统边界,那就是大规模里的超规模。

第二是多样,即富媒体的意思。现在80%~90%的数据都是文本、语音、图像、视频,不再是特别传统的二维的、整齐的、结构化的数据了。

第三是价值。我们处在数据的海洋中,四周都是数据,但是跟我个人有关、跟我企业有关的那种有价值的信息相对少了,因为数据量的分母太大了,即密度在降低。这个后面直接的隐喻就是要深度挖掘,才能发现我们希望的价值。

第四是速度。数据就像开着的水龙头一样,源源不断地流出来,而不像以前,我们上传下载图片要等很久。因此,大数据里的数据是一个流数据的概念。