四、五城市调查数据再次整理
2019年,我终于完成与重庆大学出版社合约的最后两本书,《社会科学研究方法百科全书》和《测量、设计和分析》(待出版)的翻译,休息了一段时间后开始着手整理几十年来自己参与和主持的十几个抽样调查的数据。1992年在与芝加哥大学和杜克大学合作进行《中国城乡居民家庭生活调查》之后,由于合作者芝加哥大学白威廉的推荐,我开始使用STATA。我记得当时白威廉先生给我寄来的第一套STATA是2.0,还是DOS版的。而在开始做这个工作的时候,最新的版本已经是STATA16了,现在已经是STATA17了。STATA14之后的各个版本,除了数据编辑、分析和绘图功能有很大的改进之外,系统采用了新的UNICODE码,因此采用STATA14以前各种版本生成的系统文件的中文标签,在STATA14之后的各个版本中都变成了乱码,无法辨认。而当时我手头有的STATA是12,还是10年前与香港理工大学合作进行手机调查时,理工大学的罗沛霖先生受我影响从SPSS改用STATA,购买赠送给我的。换言之,我对历年调查数据的编辑整理都是用STATA16进行的。当然五城市数据也不例外。编辑整理的过程是,先分调查点将对应于原始调查三个卡的ASCII码数据转换成STATA数据文件,然后分调查点将3个STATA数据文件合并成一个包括三个卡的全部数据,最后将9个数据合并成一个数据——五城市调查数据(wcsdcdata.dta)。借此机会我也对数据做了最后的编辑整理:给数据的变量和变量值贴上了标签。这个工作年轻人做比较合适,老头子,老眼昏花了贴起来有点费劲,但是总算干成了。在这个过程中再次仔细读了全部数据并做了记录。
最终的数据文件是一个多重记录类型的数据文件,有A、B、C三种记录类型,其中A类记录是单条记录类型的数据,记录了被调查人本人的情况。本次调查共有被调查人5748(5075户)其中北京东河沿701(669户)、北京团结湖(505户)、天津尖山街(583户)、上海张家弄739(646户)、上海长春街791(640户)、上海双阳路775(719户)、南京四福巷629(530户)、成都如是庵 401(349户)和广州某居委会528(528户)。由于本次调查的被调查人是样本户中的全部已婚妇女,不少样本户都有一个以上已婚妇女,所以被调查人数会多于样本户数。为便于大家了解数据的结构,我在被调查人数之外,也统计了样本户数,把它们列在了被调查人数后面的括弧中。现在看来,这样的设计叠床架屋,不仅有重复之嫌,也给数据处理增加了麻烦。户被调查人数如下表所示:
B类记录属于多条记录类型数据,记录了被调查人的家庭成员的情况,每一个家庭成员都有一条单独的记录,共有22122条(个家庭成员),说明本次调查涉及的被调查人的家庭成员共有22122人。其中北京东河沿2289、北京团结湖2312、天津尖山街2408、上海张家弄3031、上海长春街2616、上海双阳路3087、南京四福巷2742、成都如是庵1278、广州某居委会2449。两类记录的拼接结果显示,两类数据的ID完全对应。与B类记录一样,C类记录也是多条记录类型的记录,记录了被调查人的生育情况,涉及被调查人的全部孕育过程,即每一个孩子的怀孕、生育和抚育情况。有多少个孩子就有多少条记录。全部记录共为25353条,除去天津缺失的529条(因为最早开始的天津尖山街调查并没有生育部分的内容),共有有效记录24824条(个孕育的孩子),其中北京东河沿2647、北京团结湖2429、天津尖山街缺失、上海张家弄3452、上海长春街3165、上海双阳路3629、南京四福巷 3174、成都如是庵1618、广州某居委会2655。与A和B类数据拼接也正确无误。由于这一套数据不仅时间跨度很大,而且中间经过多次转换。所以在拼接之前我十分担心会出现意想不到的情况,但结果却证明我的担心是多余的。在完成数据拼接之后我又对数据文件所含125个变量一一做了检查。对超界和异常值做了处理。拼接和检查结果说明,原数据清洁整齐,质量很好。至此,或许我可以向费雷二老,和当初一起熬夜设计、挨家挨户登门调查和彻夜不眠处理数据的诸位同道交差了。至于费老关心的“虎子”擒得否?请社会学界同仁指正。
五城市调查最后编辑整理的数据变量清单如下:
wcsdcdata.dta数据变量清单
[1]作者简介:沈崇麟,中国社会科学院社会学研究所研究员、社会学系教授(退休),曾任社会调查与方法研究室主任(1992—2004),社会调查与数据处理研究中心主任(1992—2017)。