Python大数据分析算法与实例
上QQ阅读APP看书,第一时间看更新

1.1 大数据分析背景

1.大数据的狭隘定义

大数据(Big Data)是指无法在特定时间范围内用规范化手段进行捕获、处理和筛选的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.大数据的产生

“大数据”的名称来自于未来学家托夫勒所著的《第三次浪潮》,《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。2004年出现的社交媒体则把全世界每个人都转变成了潜在的数据生成器,向摩尔定律铸成的巨鼎中贡献数据,这是“大容量”形成的主要原因。

3.大数据的特征

  •  容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。
  •  种类(Variety):数据类型的多样性。
  •  速度(Velocity):指获得数据的速度。
  •  可变性(Variability):妨碍了处理和有效地管理数据的过程。
  •  真实性(Veracity):数据的质量。
  •  复杂性(Complexity):数据量巨大,来源多渠道。
  •  价值(Value):合理运用大数据,以低成本创造高价值。

4.大数据的结构

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

5.大数据分析

大数据分析的产生旨在IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后进行大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。

6.大数据分析的意义

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创始人马云在演讲中就提到,“未来的时代将不是IT的时代,而是DT的时代”,DT就是Data Technology(数据科技),可以看出大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更重要。对于很多行业而言,如何利用这些大规模的数据是赢得竞争的关键。