自己动手写网络爬虫（修订版）

更新时间：2021-04-02 22:21:53

最新章节：本章小结

封面

版权信息

内容简介

前言

第1篇自己动手抓取数据

第1章全面剖析网络爬虫

1.1 抓取网页

1.2 宽度优先爬虫和带偏好的爬虫

1.3 设计爬虫队列

1.4 设计爬虫架构

1.5 使用多线程技术提升爬虫性能

本章小结

第2章分布式爬虫

2.1 设计分布式爬虫

2.2 分布式存储

2.3 Google的成功之道——GFS

2.4 Google网页存储秘诀——BigTable

2.5 Google的成功之道——MapReduce算法

2.6 Nutch中的分布式

本章小结

第3章爬虫的“方方面面”

3.1 爬虫中的“黑洞”

3.2 主题爬虫和限定爬虫

3.3 有“道德”的爬虫

本章小结

第2篇自己动手抽取Web内容

第4章 “处理”HTML页面

4.1 征服正则表达式

4.2 抽取HTML正文

4.3 抽取正文

4.4 从JavaScript中抽取信息

本章小结

第5章非HTML正文抽取

5.1 抽取PDF文件

5.2 抽取Office文档

5.3 抽取RTF

本章小结

第6章多媒体抽取

6.1 视频抽取

6.2 音频抽取

本章小结

第7章去掉网页中的“噪声”

7.1 “噪声”对网页的影响

7.2 利用“统计学”消除“噪声”

7.3 利用“视觉”消除“噪声”

本章小结

第3篇自己动手挖掘Web数据

第8章分析Web图

8.1 存储Web“图”

8.2 利用Web“图”分析链接

8.3 Google的秘密——PageRank

8.4 PageRank的兄弟HITS

8.5 PageRank与HITS比较

本章小结

第9章去掉“重复”的文档

9.1 何为“重复”的文档

9.2 利用“语义指纹”排重

9.3 SimHash排重

9.4 分布式文档排重

本章小结

第10章分类与聚类的应用

10.1 网页分类

10.2 网页聚类

本章小结

更新时间：2021-04-02 22:21:53