互联网的黄金矿工：爬虫_给产品经理讲技术-QQ阅读男生科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

互联网的黄金矿工：爬虫

网络爬虫算得上是一个输出相当稳定的“黄金矿工”。为什么这么说呢？网络爬虫的作用就是抓取某个指定网页的数据并存储在本地，而一些大公司的主要收入都来源于搜索引擎，搜索引擎的数据是由网络爬虫没日没夜地从互联网上抓取的，所以说网络爬虫就是它们的黄金矿工。

那么，这些爬虫是怎样“寻宝”的呢？原理其实很简单，首先给爬虫几个初始的URL 链接，爬虫把这些链接的网页抓取回来，经过对网页进行分析，得到两部分数据：一部分是网页的有效内容，可以用来建立搜索关键词的索引，这部分数据先存储起来；另一部分就是网页中的URL链接，这些链接可以作为下一轮爬虫抓取的目标网页，如此反复操作，也许整个互联网的网页都可以被抓取下来。

原理虽然很简单，但是要成为一名优秀的“矿工”，也面临诸多挑战。

（1）一名优秀的黄金矿工，需要有从乱石堆中挑选黄金的本领；一个优秀的爬虫，需要从页面中解析出正确的URL。

（2）一名优秀的黄金矿工，需要有很快的挖矿速度；一个优秀的爬虫，也必须有很快的抓取速度。

（3）一名优秀的黄金矿工，总能选择最值钱的矿石；一个优秀的爬虫，也需要有挑选最有价值的页面进行抓取的能力。

（4）一名优秀的黄金矿工，能适应各种不同的矿场；一个优秀的爬虫，也需要智能地适应不同的网站。

最后再分享一个关于爬虫的冷知识。如果网站运营者不愿意网站内容被爬虫抓取，那么可以在网站根目录下放一个 robots.txt 文件，在其中具体描述该网站的哪些页面可以被抓取，哪些不能。