上QQ阅读APP看书,第一时间看更新
第2章 数据收集
“小明哥,听上去大数据涵盖的课题非常丰富啊,我之前一点经验都没有,学习起来是不是颇有难度?”
“没关系,我们一步一步地来,先从最基础的数据收集谈起吧。”
大数据这个概念的含义很广,其中最首要的一点就是大规模的数据,这也是目前发展的趋势所在。想想看,十多年前电脑刚刚开始普及的时候,如果谁拥有一个2 GB的硬盘那都是非常值得炫耀的事情了,而如今,即使有一个2 TB的硬盘(相当于1024个2GB硬盘),你也经常会发现无法放下所有的个人资料。个人数据尚且如此,更不要提整个信息世界了,它已经完完全全进入了数据爆炸的时代。然而,在拥有大数据的同时,我们又会发现有些数据并非想象的那样唾手可得。例如,互联网上关于某个产品的评论有哪些?在购物网站上,用户们的浏览和购买行为又是怎样的?等等。正所谓“乱花渐欲迷人眼”,面对纷繁复杂的数据我们有时反而感觉无从下手。无法获得所需的数据,我们纵使有再好的技术也无法提炼出任何价值。因此,我们需要通过各种方案,将所有富含潜在价值的数据统统都收集起来,而这个规模可能还不小。
本章首先介绍在互联网获取数据的强大工具——网络爬虫,包括它的工作原理、操作流程、主要类型和相应的开源工具。然后介绍企业内部获取数据的主要思路、流程和相应的开源工具。