数据采集是一项庞杂的工作,倘若是文档文件或者数据库文件,采用拷贝和文件导出的方法即可完成。面对海量的非结构化文件,尤其是网络数据不可避免地会选择网络爬虫技术。网络爬虫作为一门单独的学科领域,其涉及的知识非常深,仅仅这一项技术足够一本书去阐述,故而本书只是管中窥豹地介绍了爬虫技术,更多的网络爬虫技术难点包括: