1.2.4 数据来源
本书第4章至第6章的实证分析数据主要来自2017年流动人口动态监测数据,其也是目前国家卫生健康委在网站上公开最新、最全面的数据。此次调查主要采用PPS抽样方法(即多阶段、分层、与规模成比例)。该调查数据是目前国内研究流动人口问题的权威数据库,基于该数据库已经形成了大量的科研成果,其被广泛地应用于教学、科研、政府决策之中,因此应用该数据具有较强的适用性与代表性。为了保护调查者的隐私信息,实际的数据只反映调查地点所在的城市以及区县的具体名称,并未直接反映调查地点的街道与居/村委会的名称,但是反映了样本点的编码,样本点代码由中国人口与发展研究中心调查评估部编制,每个样本点都有自己唯一的对应代码。每个样本点实际上代表一个村委会或居委会,它是作为问卷调查实施过程中的最小一级单位。
CMDS数据的调查群体主要针对非本地户籍、15~59周岁的流动人口,他们在流入地居住时间超过一个月,涵盖了全国31个省(自治区、直辖市)和新疆生产建设兵团的流动人口数据,样本总量为168192个。本书的主要研究对象为新生代农民工,借鉴梁宏(2011)的研究经验,根据父母是否有流动经历、出生日期在1980年以后以及户籍为农村户口来共同界定新生代农民工群体。首先,剔除出生日期晚于1980年的样本,获得99285个基准样本;然后,根据户籍是否为农村户口对数据进行清洗,获得77496个数据样本;最后,根据父母是否具有外出务工经历对数据进行清洗,获得25468个数据样本。同时,根据1980年前出生,户籍为农村界定老一代农民工,共获得57778个数据样本。
由于城市规模不同,新生代农民工的住房和社会融入情况存在较大的差异,特别是对于大城市与小城市而言,大城市新生代农民工可能更多选择租赁住房或集体宿舍,而小城市新生代农民工选择购买住房的比例较高。在实证研究过程中,为了保障研究结论的准确性和代表性,本书将“城市规模”作为很重要的一个控制变量。根据2014年《国务院关于调整城市规模划分标准的通知》,以城区常住人口数量为城市规模的统计标准,将城市划分为五类七档。其中,小城市人口规模为50万以下,中等城市人口规模为50万~100万,大城市人口规模为100万~500万,特大城市人口规模为500万~1000万,超大城市人口规模为1000万以上。现有研究通常采用2010年第六次全国人口普查数据来反映城市常住人口规模。虽然该数据距离2017年流动人口调查问卷时间滞后大约6年,但人口普查中的城市人口数据比中国其他统计来源更可靠(Liu T & Wang J,2020)。因此,本书的研究利用第六次人口普查数据中各地级市城区常住人口数量来反映城市规模变量。