Python 3 爬虫、数据清洗与可视化实战(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.6 爬虫攻防战

爬虫是模拟人的浏览访问行为,进行数据的批量抓取。当抓取的数据量逐渐增大时,会给被访问的服务器造成很大的压力,甚至有可能崩溃。换句话说就是,服务器是不喜欢有人抓取自己的数据的。那么,网站方面就会针对这些爬虫者采取一些反爬策略。

img

图2-24

服务器识别爬虫的一种方式是通过检查连接的User-Agent来识别到底是浏览器访问的还是代码访问的。如果是代码访问的,当访问量增大时,服务器就会直接封掉来访IP。

那么应对这种初级的反爬机制,我们应该采取何种举措?

还是以2.3节的爬虫为例。在进行访问时,我们在开发者环境下不仅可以找到URL、Form Data,还可以在Request Headers中构造浏览器的请求头,封装自己。服务器识别浏览器访问的方法就是判断keywor是否为Request Headers下的User-Agent,如图2-25所示。因此,我们只需要构造这个请求头的参数。创建请求头部信息即可,代码如下。

img

至此,很多读者会认为修改User-Agent很简单。确实很简单,但是正常人1秒钟看一张图,而爬虫1秒钟可以抓取好多张图,比如1秒钟抓取上百张图,那么服务器的压力必然会增大。也就是说,在一个IP下批量访问、下载图片,这种行为不符合正常人类的行为,肯定要被封掉IP。其原理也很简单,就是统计每个IP的访问频率,该频率超过阈值就会返回一个验证码,如果真的是用户在进行访问,用户就会填写验证码,然后继续访问;如果是代码在进行访问,就会被封掉IP。

解决以上问题有两种方法,第一种方法就是常用的增设延时,每3秒钟抓取一次,代码如下。

img
img

图2-25

但是,我们写爬虫的目的是为了高效批量抓取数据,这里设置3秒钟抓取一次,效率未免太低。其实,还有一种更重要的解决方法(第二种方法),那就是从本质上解决问题。

不管如何访问,服务器的目的就是查出哪些为代码访问,然后封掉IP。解决方法:为避免被封掉IP,在数据采集时经常使用代理。当然,requests也有相应的proxies属性。

首先构建自己的代理IP池,将其以字典的形式赋值给proxies,然后传输给requests,代码如下。

img