深圳大学理论经济学博士后研究报告文集(第一辑)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.3 研究样本与变量构建

3.3.1 中国健康与营养调查数据

本研究使用中国健康与营养调查(China Health and Nutrition Survey,CHNS)数据。该微观调查数据库针对辽宁、黑龙江、江苏、山东、河南、湖北、湖南、广西和贵州等9个省份,采用追踪入户调查的方式,采集了人口特征、教育、就业、社区等信息。CHNS调查范围覆盖了中国北方与南方、沿海与内地、发达与欠发达省份,具有较好的代表性。截至2015年4月,CHNS调查公布了9次调查数据,分别为1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年和2011年。该项目采用多阶段整群抽样,采集了4400个家庭、26000个体数据。本研究基于CHNS构建面板数据。首先,基于亲属关系识别码进行父亲—子女关系配对。其次,剔除子女出生晚于1989年或早于1960年的观察值。最后,剔除农村家庭样本,重点分析城镇家庭。(7)经过父子关系配对,删除不可靠信息和农村样本,最终得到适合本研究的有效样本量为1025。本文将研究对象划分为三个年龄群组:“60后”群组(出生于1960—1969年);“70后”群组(出生于1970—1979年)和“80后”群组(出生于1980—1989年)。

3.3.2 实证分析所用变量构建

职业。本研究根据CHNS提供的职业信息确定父亲和子女职业类别,并在CHNS的职业信息基础上进行二次分类,以便制作实证分析所需的社会流动表。由于职业状态随着年龄增长而趋于稳定,当子女职业在CHNS调查期内存在多次变动时,则使用最后一次调查的职业状态数据。如果调查期内父亲职业有过变动,则以父亲40岁左右时的职业状态确定职业类别。我们参考Long & Ferrie(2013)的职业分类,结合李路路和朱斌(2015)、周兴和张鹏(2014)的分类方式,依据CHNS提供的主要职业信息,将职业分为以下4种类型:管理人员、技术人员、服务职员和普通工人。本研究重点分析城镇部门代际流动性,职业类别中未包含“农民”阶层。(8)

收入。CHNS将收入数据折算为2009年价值。父亲收入以调查期内各期收入的均值表示;子女收入取最新一期调查结果。(9)本研究还使用收入数据构建代际流动表,以考察结论的稳健性。将样本数据中父亲和子女的收入分别依据25%、50%和75%分位数划分为4个阶层,即低收入阶层、中低收入阶层、中高收入阶层和高收入阶层。在划分收入阶层时,子女收入地位的比较范围是其所属年龄群组。本研究之所以使用相对收入划分阶层,原因在于代际流动性更关注阶层之间的流动,而非绝对收入的变动。表3-1的数据表明,不同年龄群组的收入具有显著差异,子女收入普遍高于父亲收入。“60后”“70后”与“80后”父亲收入的方差不断增大,表明家庭背景日益分化。

教育。教育变量为接受正规学校教育的年数。由表3-1可知,三个群组平均受教育程度逐渐提升,且子女受教育程度普遍高于父亲。“70后”群组的平均受教育水平比“60后”平均受教育水平提升了1.85年。“80后”群组的平均受教育水平达到13.44年,比“70后”群组提高了2.64年,比“60后”群组提高了4.49年。“80后”受教育年限方差显著小于“60后”和“70后”,表明“80后”的教育公平性有所提升。

表3-1 描述性统计

注:数据来源为中国健康与营养调查(CHNS),表格统计了各变量均值,括号中的统计量为方差。身体质量指数BMI=体重(kg)/身高的平方(m2),中国卫生部确立的BMI健康区间为18.5~23.9。城市化指数已剔除教育指数影响。

其他控制变量包括年龄、性别、婚姻、健康、父亲变量和环境变量等。本研究使用身体质量指数(Body Mass Index,BMI)衡量健康状况,当指标在18.5~23.9区间时,健康虚拟变量值为1。为控制环境特征的影响,本研究借鉴秦雪征和王天宇(2014)引入沿海虚拟变量控制地区效应。若被调查家庭处于沿海省份,则“沿海”虚拟变量值为1。我们用CHNS提供的城市化指数控制经济社会发展程度,以CHNS提供的描述社区平均教育水平的社区教育指数控制子女教育的内生性。