精通Scrapy网络爬虫

更新时间：2020-11-28 14:59:54

最新章节：本书特点：

封面

版权信息

前言

第1章初识Scrapy

1.1 网络爬虫是什么

1.2 Scrapy简介及安装

1.3 编写第一个Scrapy爬虫

1.4 本章小结

第2章编写Spider

2.1 Scrapy框架结构及工作原理

2.2 Request和Response对象

2.3 Spider开发流程

2.4 本章小结

第3章使用Selector提取数据

3.1 Selector对象

3.2 Response内置Selector

3.3 XPath

3.4 CSS选择器

3.5 本章小结

第4章使用Item封装数据

4.1 Item和Field

4.2 拓展Item子类

4.3 Field元数据

4.4 本章小结

第5章使用Item Pipeline处理数据

5.1 Item Pipeline

5.2 更多例子

5.3 本章小结

第6章使用LinkExtractor提取链接

6.1 使用LinkExtractor

6.2 描述提取规则

6.3 本章小结

第7章使用Exporter导出数据

7.1 指定如何导出数据

7.2 添加导出数据格式

7.3 本章小结

第8章项目练习

8.1 项目需求

8.2 页面分析

8.3 编码实现

8.4 本章小结

第9章下载文件和图片

9.1 FilesPipeline和ImagesPipeline

9.2 项目实战：爬取matplotlib例子源码文件

9.3 项目实战：下载360图片

9.4 本章小结

第10章模拟登录

10.1 登录实质

10.2 Scrapy模拟登录

10.3 识别验证码

10.4 Cookie登录

10.5 本章小结

第11章爬取动态页面

11.1 Splash渲染引擎

11.2 在Scrapy中使用Splash

11.3 项目实战：爬取toscrape中的名人名言

11.4 项目实战：爬取京东商城中的书籍信息

11.5 本章小结

第12章存入数据库

12.1 SQLite

12.2 MySQL

12.3 MongoDB

12.4 Redis

12.5 本章小结

第13章使用HTTP代理

13.1 HttpProxyMiddleware

13.2 使用多个代理

13.3 获取免费代理

13.4 实现随机代理

13.5 项目实战：爬取豆瓣电影信息

13.6 本章小结

第14章分布式爬取

14.1 Redis的使用

14.2 scrapy-redis源码分析

14.3 使用scrapy-redis进行分布式爬取

14.4 本章小结

作者简介：

本书特点：

更新时间：2020-11-28 14:59:54