1.5 爬虫扩展——聚焦爬虫_精通Python网络爬虫：核心技术、框架与项目实战-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

1.5 爬虫扩展——聚焦爬虫

由于聚焦爬虫可以按对应的主题有目的地进行爬取，并且可以节省大量的服务器资源和带宽资源，具有很强的实用性，所以在此，我们将对聚焦爬虫进行详细讲解。图1-2所示为聚焦爬虫运行的流程，熟悉该流程后，我们可以更清晰地知道聚焦爬虫的工作原理和过程。

图1-2 聚焦爬虫运行的流程

首先，聚焦爬虫拥有一个控制中心，该控制中心负责对整个爬虫系统进行管理和监控，主要包括控制用户交互、初始化爬行器、确定主题、协调各模块之间的工作、控制爬行过程等方面。

然后，将初始的URL集合传递给URL队列，页面爬行模块会从URL队列中读取第一批URL列表，然后根据这些URL地址从互联网中进行相应的页面爬取。爬取后，将爬取到的内容传到页面数据库中存储，同时，在爬行过程中，会爬取到一些新的URL，此时，需要根据我们所定的主题使用链接过滤模块过滤掉无关链接，再将剩下来的URL链接根据主题使用链接评价模块或内容评价模块进行优先级的排序。完成后，将新的URL地址传递到URL队列中，供页面爬行模块使用。另一方面，将页面爬取并存放到页面数据库后，需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理，并根据处理结果建立索引数据库，用户检索对应信息时，可以从索引数据库中进行相应的检索，并得到对应的结果。

这就是聚焦爬虫的主要工作流程，了解聚焦爬虫的主要工作流程有助于我们编写聚焦爬虫，使编写的思路更加清晰。