Python数据预处理技术与实践
上QQ阅读APP看书,第一时间看更新

3.4 爬取数据以JSON格式进行存储

上一节介绍了如何分析网页数据并爬取数据,得到数据以后如何进行存储呢?本节主要介绍JSON格式数据的本地化存储,具体操作步骤如下。

1. 修改管道文件

使用pipline.py文件作为管道文件,负责处理Spider中获取到的实体特征信息,并进行存储。这里需要导入JsonItemExporter模块进行JSON操作,然后在JsonExporterPipleline方法中执行具体的写操作,完整的代码如下:

2. 修改设置文件

在setting.py设置文件中修改方法的执行优先级。数字从小到大,数字越小,优先级就越高,具体设置如下:

3. JSON格式数据的本地化存储

运行main.py文件,实现本地JSON文件存储。执行完成后,打开articleexport.json文件查看结果,如图3-13所示。

图3-13 JSON格式数据的本地化存储