第2章　数据收集

“小明哥，听上去大数据涵盖的课题非常丰富啊，我之前一点经验都没有，学习起来是不是颇有难度？”

“没关系，我们一步一步地来，先从最基础的数据收集谈起吧。”

大数据这个概念的含义很广，其中最首要的一点就是大规模的数据，这也是目前发展的趋势所在。想想看，十多年前电脑刚刚开始普及的时候，如果谁拥有一个2 GB的硬盘那都是非常值得炫耀的事情了，而如今，即使有一个2 TB的硬盘（相当于1024个2GB硬盘），你也经常会发现无法放下所有的个人资料。个人数据尚且如此，更不要提整个信息世界了，它已经完完全全进入了数据爆炸的时代。然而，在拥有大数据的同时，我们又会发现有些数据并非想象的那样唾手可得。例如，互联网上关于某个产品的评论有哪些？在购物网站上，用户们的浏览和购买行为又是怎样的？等等。正所谓“乱花渐欲迷人眼”，面对纷繁复杂的数据我们有时反而感觉无从下手。无法获得所需的数据，我们纵使有再好的技术也无法提炼出任何价值。因此，我们需要通过各种方案，将所有富含潜在价值的数据统统都收集起来，而这个规模可能还不小。

本章首先介绍在互联网获取数据的强大工具——网络爬虫，包括它的工作原理、操作流程、主要类型和相应的开源工具。然后介绍企业内部获取数据的主要思路、流程和相应的开源工具。

第2章 数据收集

第2章　数据收集