Python3网络爬虫宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 爬取下来的数据被用在什么地方

爬虫爬取下来的数据根据业务的不同以不同的形态呈现。例如,爬取求职网站上的招聘信息,出库后通过前端加工生成如图1-7所示的日期-岗位数量柱状图、如图1-8所示的趋势散点图,或如图1-9所示的编程语言雷达图,以便广大求职者做出更合理的选择。

img

图1-7 日期-岗位数量柱状图

img

图1-8 趋势散点图

img

图1-9 编程语言雷达图

爬取不同平台上的新闻资讯信息,在进行去重处理后可以按照重要程度进行整理、排序,或者形成按照读者喜好进行推荐的资讯聚合平台,平台界面如图1-10所示。

img

图1-10 资讯聚合平台

爬取不同平台上的图片,根据图片内容和图片尺寸进行分类,可以形成提供下载服务的图片聚合平台,平台界面如图1-11所示。

img

图1-11 图片聚合平台

爬取海量的文本,可用于深度学习中的语义分析训练,文字训练样本集如图1-12所示。

img

图1-12 文字训练样本集

爬取海量的图片,可用于深度学习中的图片内容识别训练,图片训练样本集如图1-13所示。

img

图1-13 图片训练样本集

爬取同业竞品的用户属性信息,整理后进行分类和统计,可制作出如图1-14所示的可视化图表,其将成为运营部门的重要参考资料。

img

图1-14 用户属性信息

爬取的数据还可形成即时展示关联信息的搜索引擎,图1-15所示为搜索结果的截图。

img

图1-15 搜索结果

从上面列举的例子中可以发现,爬虫程序与我们的生活紧密联系,有数据聚集的地方就有可能存在爬虫程序。