4.4 实证分析
4.4.1 数据变量
(1)数据样本
本文使用中国城市、农村和流动人口居民收入调查(Rural-Urban Migration in China,RUMiC)数据进行实证分析。RUMiC是一个大型跟踪调查项目,包含2008—2012年4年的跟踪调查。每轮调查在年初进行,并询问上一年的全年收入和消费信息。目前公布的最新数据是2009年的调查数据。RUMiC调查包含3个子样本:农村住户样本、农村—城镇流动人口样本、城镇住户样本,分别包含了8000个农村家庭、5000个流动人口家庭和5000个城镇家庭样本。在本文的分析中,我们专注于分析城市劳动力市场,因此只考察城镇住户样本。(25)城镇住户调查由课题组设计调查框架,由国家统计局执行。调查采用分段随机抽样的方法,覆盖了全国9个省份的19个城市,涵盖了家庭人口特征、教育、就业等众多信息,能够满足研究的需要。(26)
为了使计量模型能够识别精英主义教育体系对社会流动性的影响,需要寻找一个中国教育体系精英化浪潮变动的时间节点。本文认为,1998年可以作为这个关键时间节点。1998年5月4日,江泽民在北京大学百年校庆上建设世界一流大学的讲话标志着中国高等教育精英化建设的加速发展。“985工程”的展开,也伴随着“211工程”经历3年的发展进入了一个高潮阶段。(27)“985工程”与“211工程”迅速加剧了中国高等院校的分化,使中国高等院校呈现出重点大学与普通学校对立并存的二元格局。由高考、中考等考试体系引导,中国的高中教育、初中教育和小学教育也迅速走上精英化道路,重点学校和重点班的优势日益凸显。因此,1998年可以作为中国教育体系走向的一个分水岭。1998年之后,中国教育体系的精英化倾向日益严重。(28)由于RUMiC数据最新调查期为2009年,与关键时间节点1998年相差11年,在截取样本时间阶段时,我们依据对称原则选取1987年(即1998年向前推11年)以后参加工作的人作为研究对象。
(2)变量定义
父亲收入和本人收入。之所以使用父亲收入而没有考虑母亲的收入是因为我国还是一个男性主导的社会。另外,年长的哥哥姐姐很可能对弟弟妹妹的成长具有重要影响。弟弟妹妹可以通过哥哥姐姐的经验、信息和社会网络获得更好的成长。而这会影响我们对社会流动性的估算。因此,我们只考虑家庭中年龄最大的子女。本研究样本定位于已经参加工作的人口。
受教育程度。受教育年限为接受正规学校教育的年数,单位是年。根据Chusseau and Hellier(2012)的研究,在估计代际收入弹性的过程中,如果不控制父亲的教育程度会导致代际收入弹性的低估,因此我们将父亲收入作为回归分析中的控制变量。
社会网络。社会网络常被理解为个体所拥有的社会联系的总量。以往的实证研究使用多种指标定义和衡量社会关系,如“春节时期联系过的亲友数量”“找工作时的老乡关系”“亲友间的礼金往来”,以及从姓氏宗族联系(郭云南 & 姚洋,2013)。也有研究从社会联系的内容上描述关系,如“是否与党员干部关联”(Zhang & Li, 2003)。结合本文使用的调研数据,我们使用“春节期间收取的礼金数量”作为衡量关系变量的指标。
健康状况。之所以将健康变量加入实证分析过程,是因为健康同教育、社会网络和文化资本一同构成了父母影响子女收入的4条通道(孙三百等,2012)。本研究使用主观健康评分来衡量健康状况,并构建虚拟变量。当被调查对象报告自身健康状况为非常好、比较好和一般时,身体健康虚拟变量值为1;健康状况较差和很差时,虚拟变量值为0。
文化资本。文化资本也是父母影响子女收入的通道,但准确衡量文化资本是一件困难的事情。一些实证研究使用家中藏书数量来作为文化资本的代理变量,捕捉家庭文化对子女收入的影响(Chusseau and Hellier, 2012)。这种做法倾向于将家庭文化特征理解为知识的存量。事实上,父母精神和性格特质可能对子女的影响更大。已有研究表明,精英阶层更强调的创新、分享等精神特质对精英的再生产具有重要意义(张斌贤和王晨,2007)。本文从父母的冒险精神这一视角来描述家庭文化资本。冒险精神一直被视为西方世界获得成功的重要因素,也是家庭和个体获得成功的关键变量。本研究使用调研数据构造冒险精神虚拟变量,值为1时表示父亲具有一定的冒险精神;值为0时表示缺乏冒险精神。
群组虚拟变量。为了更好地分析精英主义教育的影响,我们将研究对象进一步划分为两个群组:其一是未受到“985工程”和“211工程”影响的劳动人口,其二是受到了“985工程”和“211工程”影响的人口。为此,我们相应地设置了一个群组虚拟变量Ti,如果个体i受到了影响,则记Ti=1;反之则记Ti=0。由于精英主义倾向的变化为连续过程,本研究只能做出一个粗略的分界:未受到“985工程”和“211工程”影响是指在1998年以前就已经毕业参加工作,或在1998年之后参加工作,但没有高等教育学历的劳动力;受到“985工程”和“211工程”影响是指1998年之后在学或入学,而后高校毕业参加工作。
(3)描述性统计
经过父子关系配对,删除不可靠信息,筛选出适合本研究的实际有效样本量为472。(29)变量的描述性统计展示在表4-1中。从统计结果来看,子女平均年收入为2.77万元,高于父亲平均年收入(2.65万元)。其主要原因可能是子女受教育水平更高,从事的工作报酬更好。父亲的平均受教育年限10.28年;子女的平均受教育年限为14.41年,高于父亲4.13年。大部分子女自评健康状况为良好。以春节时收取礼金的数量衡量的社会网络关系方差非常大,说明家庭之间社会网络的差异巨大。
将样本数据中父亲和子女的收入分别依据25%、50%和75%分位数划分为4个阶层,即低收入阶层、中低收入阶层、中高收入阶层和高收入阶层,进而可以得到如表4-2所示的社会流动表。表中的各行对应父亲的收入阶层,各列对应子女的收入阶层,单元格中的数字表示特定阶层流动状况所占的百分比。例如,第一行第二列数字7.63意味着样本中父亲处于低收入阶层而子女跃升到中低收入阶层的比例为7.63%。从表4-2提供的信息可以看出,父亲收入阶层的分布比例比较均匀;而子女收入阶层的分布比例中,中低收入阶层占比较大,中高收入阶层占比较小。这从侧面反映出年轻一代收入差距比父辈更大。此外,各种代际阶层变迁的情形中,父亲和子女同为低收入阶层的比例最高,为11.02%;父亲和子女同为高收入阶层的比例次之,为10.81%。这说明穷人的后代是穷人的概率以及富人的后代是富人的概率很高,低收入阶层和高收入阶层的代际传承非常明显。
表4-1 描述性统计
表4-2 社会流动
注:本表根据《中国城市、农村和流动人口居民收入调查》样本数据计算所得。单元格数字表示特定阶层流动状况所占的百分比,单位为%。
4.4.2 计量模型
(1)精英主义教育体系对代际收入弹性的影响
根据式(4-5)刻画的模型,本研究设计了如式(4-6)所示的基准模型对精英主义教育体系和社会流动性的关系进行检验。其中,和分别表示子女和父亲持久性收入的对数;Ti为群组虚拟变量,描述了个体i是否受到了“985工程”和“211工程”的影响。εi是一个白噪声过程。
如果教育体系的迅速精英化确实导致了社会流动性的下降,则受到“985工程”和“211工程”影响的群组应呈现出更高的代际收入弹性,即群组虚拟变量与父亲收入的交叉项系数β2应显著为正。直接估计式(4-6)的困难在于持久收入无法观测,实证分析中只能用临时收入作为代理变量。根据持久收入理论,由于受到临时波动的影响,临时收入的方差大于持久收入的方差,代际收入弹性的最小二乘估计量是下偏的(Chusseau and Hellier, 2012)。然而,本研究关注的是群组之间的对比,即关键变量是群组虚拟变量与父亲收入的交叉项,年度收入数据仍然可以帮助我们识别群组之间的差异。因此,本研究仍然使用OLS估计做初步分析,并与其他方法进行比较。为了更精确地估计代际收入弹性,可以使用双样本工具变量估计(Two Sample Instrumental Variable Estimation,TSIV)解决收入数据带来的偏误(Bjorklund and Jantti, 1997)。TSIV估计的核心思想是将式(4-6)中的替换为一个持久收入的估计值,这个估计值可以根据父亲的特征变量获得。这一替代使TSIV大大降低了对数据样本的要求。具体而言,TSIV可分为两个关键步骤:(1)基于父亲收入及其他父亲特征变量构成的样本,以父亲收入为被解释变量,对父亲的其他特征变量进行回归,进而得到父亲持久收入的估计值;(2)用替换式(4-6)中的变量,然后估计式(4-7)。(30)
代际收入弹性估计偏误的另外一个来源是“生命周期偏误”(Life-cycle Bias)。根据生命周期理论,临时收入随年龄增长呈现“倒U”型趋势。通过观察个体整个职业生涯的收入变动而计算持久收入的方式并不现实,因此,实证研究中往往选取典型收入,即最接近个体持久收入的临时收入,作为次优选择。由于代际流动研究涉及两代人收入的配对,父子的收入观测期往往位于不同的生命周期阶段,这种代际间的年龄差异导致的代际收入弹性偏误被称为生命周期偏误(汪燕敏,2013)。在处理生命周期偏误时,设置一个合适的年龄段构建分析样本,可以有效降低生命周期偏误(Haider and Solon, 2006)。Haider and Solon(2006)的研究表明,个体在其30岁的早期和40岁早期的收入最接近一生的平均收入。在估计代际弹性时,父辈则用40岁左右,所导致的误差最小(黄桂田 & 何石军,2013)。本研究预测父亲年龄在40岁时的收入,并以其作为持久性收入的预测值;同时,在回归模型中加入子女年龄和年龄平方项控制收入的生命周期影响,减小生命周期偏误。回归模型如式(4-8)所示。Xi包含了子女的特征变量,包括自身年龄、年龄平方项等控制变量以及常数项。由于不控制父亲的受教育程度和父亲的年龄会导致代际收入弹性被低估(Blanden & Macmillan, 2014),我们在Xi中也包含了父亲的年龄、年龄平方项和受教育程度。
(2)精英主义教育体系对代际流动通道的影响
代际收入弹性并不是准确刻画因果关系的结构性参数,而是一个反映父母和子女收入相关性的描述性变量。事实上,父母收入不仅能够直接影响子女收入,而且还可以通过健康、教育、社会网络和文化资本等中间变量影响子女收入(孙三百等,2012)。本文利用Bowles and Gintis(2002)的方法对不同路径的影响力进行分解,分别计算健康、教育、社会网络和文化资本对父子收入相关性的影响程度,从而考察精英主义教育倾向的加重是否改变了教育在代际收入流动中的作用。
父亲的收入除了直接影响子女收入,还通过健康、教育、社会网络和文化资本等4个变量影响子女收入。将这4个变量分别记为x1、x2、x3和x4。考虑如式(4-9)所示的计量模型。θi是变量xi对应的参数,i=1,2,3,4。假设随机干扰项与解释变量无关。
对所有的变量进行标准化处理,在等号两端同时乘以,并求期望值,可以得到式(4-10)。(31)其中表示父子收入的相关系数。rypxi表示父亲收入yp与变量xi的相关系数。因此,式(4-10)将父子收入的相关性分解为直接效应和间接效应两部分:θ表示父亲收入对子女收入的直接影响,θirypxi描述了父亲收入通过变量xi对子女收入的间接影响。
本文利用上述方法分析教育的影响在四种代际收入流动渠道中所占的比重。进而在回归分析中加入群组虚拟变量与健康、教育、社会网络和文化资本的交互项,来分析中国教育体系精英化导向对不同路径的影响。如式(4-11)所示,其中β0为常数项,βi为参数,εi为随机干扰项。模型中的关键变量是群组虚拟变量与健康、教育、社会网络和文化资本的交互项,如果精英主义教育导向对某个代际流动渠道存在显著影响,则交互项回归系数应当具有较高的统计显著性。
4.4.3 精英主义教育体系对代际收入弹性的影响
关于精英主义教育体系对代际收入弹性影响的实证分析结果展示在表4-3中。从表4-3中的模型(1)结果来看,未受到“985工程”和“211工程”影响的子女,代际收入弹性为0.2703。这个结果与其他使用CHIP数据估计的结果近似(何石军和黄桂田,2013)。(32)交叉项的系数显著为正,表明受到“985工程”和“211工程”影响的子女,代际收入弹性明显高出10%左右,即0.0279。这说明,以“985工程”和“211工程”为代表的高校精英主义导向确实提高了代际收入弹性,降低了社会流动性。
模型(2)添加了子女年龄、年龄平方项和性别等个人特征变量作为控制变量。模型(3)在模型(2)的基础上进一步添加了父亲的年龄、年龄平方项和受教育年限作为控制变量。从结果来看,模型拟合优度显著提高,估计所得的代际收入弹性也较模型(1)更大。交叉项回归结果与模型(1)相差不大,这进一步说明了精英主义教育导向对社会流动性的消极影响。
表4-3 精英主义教育体系对代际收入弹性的影响
注:∗、∗∗和∗∗∗分别表示10%、5%和1%的显著性水平。个人特征变量包括年龄、年龄平方项和性别;父亲特征变量包括父亲的年龄、年龄平方项和受教育年限。所有的回归包含常数项。T为虚拟变量,表示是否受到了“985工程”和“211工程”的影响。
为了处理收入数据误差导致的估计偏误,本文还使用TSIV方法进行实证分析,结果如模型(4)~(6)所示。TSIV方法估计所得的代际收入弹性均较OLS方法所得结果要大,说明OLS方法低估了代际收入弹性。但两种方法所得结果差异并不明显,且交叉项系数均在1%的置信水平上统计显著,系数大小也很相似。TSIV估计结果也一致地说明了高校的精英主义导向提高了代际收入弹性,不利于阶层之间的流动,证明了结论的稳健性。
为了更细致地观察精英主义教育导向对不同阶层的冲击,本文还进行了分样本回归。我们将样本依据父亲收入的中位数划分为收入较高和收入较低两类家庭,并使用两个子样本分析精英主义教育体系对代际收入弹性的影响。回归结果展示在表4-4中。从表4-4展示的结果可以看出,高收入阶层具有更高的代际收入弹性。这说明高收入家庭拥有更多的资源维持其优势地位,从而使其子女获得高收入。所有交叉项的系数均显著为正,说明无论低收入阶层还是高收入阶层都受到了“985工程”和“211工程”带来的冲击。两个阶层的代际收入弹性都有所上升。从交叉项的大小来看,低收入阶层的交叉项相对更大,说明低收入阶层受到精英主义教育导向的影响更严重。低收入阶层的代际收入弹性变大,说明其子女受到父母低收入的影响更大,更难以脱离“贫困的陷阱”。换言之,高等教育的精英主义导向降低了低收入阶层子女获得更高收入的机会。
表4-4 精英主义教育导向对不同收入阶层的影响
注:∗、∗∗和∗∗∗分别表示10%、5%和1%的显著性水平。个人特征变量包括年龄、年龄平方项和性别;父亲特征变量包括父亲的年龄、年龄平方项和受教育年限。所有的回归包含常数项。T为虚拟变量,表示是否受到了“985工程”和“211工程”的影响。
4.4.4 精英主义教育体系对代际流动通道的影响
教育、健康、社会网络和文化资本是父亲收入影响子女的4条主要通道。表4-5描述了对这4条通道影响分解的结果。父亲收入与4条通道当中的教育及社会网络联系最为密切,相关系数分别为0.216和0.230;与健康的关联性最弱,相关系数为0.056。从4条通道对子女收入的回归结果来看,教育的影响最大,为0.223;而健康的影响最弱,在统计上不显著;社会网络和文化资本的影响系数分别为0.072和0.095。父亲收入和子女收入的相关系数为0.354,4条通道解释了父亲收入和子女收入相关性的20.7%。总体来看,教育是4条通道当中最重要的,解释了代际收入相关性的13%。表4-5的结果意味着,精英主义教育体系将会通过影响子女教育对代际收入流动产生重要影响。
表4-5 代际收入流动主要路径影响的分解
注:∗、∗∗和∗∗∗分别表示10%、5%和1%的显著性水平。
在分析了教育、健康、社会网络和文化资本对代际收入流动的影响之后,我们希望进一步探讨精英主义教育导向对不同通道是否产生了影响。我们以子女收入为被解释变量,在回归分析中加入群组虚拟变量与健康、教育、社会网络和文化资本的交互项作为解释变量。如果精英主义教育体系明显改变了某条通道的影响力,则交叉项系数应当在统计上显著。表4-6描述了实证分析的结果。
表4-6 精英主义教育体系对不同代际收入流动通道的影响
注:∗、∗∗和∗∗∗分别表示10%、5%和1%的显著性水平。个人特征变量包括年龄、年龄平方项和性别。全部回归包含常数项。T为虚拟变量,表示是否受到了“985工程”和“211工程”的影响。所有回归均采用OLS估计。模型(6)在回归中加入了年龄、婚姻等个人特征变量。
表4-6中模型(1)~(4)分别只对一个变量及其与精英主义虚拟变量进行回归。所有交叉项系数均显著为正,说明精英主义教育体系强化了各条路径的影响。这说明,在精英主义教育体系下,高收入阶层在教育、健康、社会网络和文化资本方面拥有更强的优势,可以帮助子女获得高收入。
模型(5)同时对教育、健康、社会网络和文化资本及其对应的交叉项进行回归。模型(6)在模型(5)的基础上加入了性别、年龄和婚姻状况等个人特征变量作为控制变量。在模型(5)与模型(6)的回归结果中,教育和社会网络与群组虚拟变量的交叉项统计显著,而在其他两个交叉项统计上不显著。这说明精英主义教育体系对教育和社会网络这两条代际收入流动通道具有最重要的影响,对健康和文化资本的影响较弱。这也契合了前文的分析,即教育与社会网络的构建是并行的。更高的受教育水平意味着更优质的同学关系与师生关系,更强大的社会网络资源将有助于收入的提升。因此,在精英主义教育体系下,“高收入—高学历—强社会网络”便构成了一个相互支撑的三角关系,维持着高收入阶层的优势,凸显了低收入阶层的劣势,从而提高了代际收入弹性,降低了社会流动性。