Python数据预处理技术与实践
上QQ阅读APP看书,第一时间看更新

3.6 网络爬虫技术扩展

数据采集是一项庞杂的工作,倘若是文档文件或者数据库文件,采用拷贝和文件导出的方法即可完成。面对海量的非结构化文件,尤其是网络数据不可避免地会选择网络爬虫技术。网络爬虫作为一门单独的学科领域,其涉及的知识非常深,仅仅这一项技术足够一本书去阐述,故而本书只是管中窥豹地介绍了爬虫技术,更多的网络爬虫技术难点包括:

  • 实现网站虚拟登录并爬取数据。
  • 网站反爬策略。
  • 网站模板定期变动。
  • 网站URL抓取失败。
  • 网站频繁抓取IP被封。