深圳大学理论经济学博士后研究报告文集(第一辑)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.4 基于Altham指标的代际流动性实证方法

3.4.1 Altham的社会流动性度量指标

Altham(1970)以及Altham & Ferrie(2007)发展的社会流动性度量指标,可以消除阶层边缘分布的影响。该指标的具体表达式如式(3-3)所示。其中PQ分别为两个社会流动表,dPQ)可以衡量两个表反映的社会流动性之间是否存在显著差别。il为社会流动表的两个行;jm分别为社会流动表的两个列。表示出身于阶层j的人进入阶层i而非阶层l的机会比。可以改写成,描述了两个出身于不同阶层的人进入阶层i的相对优势。那么,可以改写为,表示两个社会流动表反映的阶层相对优势的差异(Long & Ferrie,2013)。于是,dPQ)衡量的就是两个表的阶层相对优势差异的总和。如果两个表完全无差异,那么相对优势为1,取对数之后为0,进而dPQ)=0;如果差异越大,那么dPQ)的值就越大。

Agresti(2002)提出了一个判断列联表相关性的统计量G2,可以被用来判断dPQ)的显著性,即判定表PQ是否存在显著差别。首先需要基于两个社会流动表PQ构造一个新的表ΘΘ当中的元素遵循如下定义:。如果表PQ没有显著的区别,那么表Θ一定是不相关的(Independent)。可以使用似然比检验来判定表Θ是否不相关。用πij表示表Θ中元素的联合概率分布,那么Nij表示ij列的元素值,即相应观察值的频率。于是,表Θ的似然值(Likelihood)为。假设表PQ没有显著的区别,即表Θ不相关,那么,联合概率等于边缘概率的乘积,即。此时的似然值为。似然比Λ=。可以构造统计量(10)在零假设d(PQ)=0的情况下,G2服从自由度为(n-1)2χ2分布(Agresti, 2002)。如果拒绝了零假设,说明两个社会流动表PQ反映的社会流动性存在显著差别。

虽然dPQ)本质上是一个相对指标,但通过设定一个固定的比较标准,可以用来衡量一个社会流动表反映的社会流动性与机会绝对公平的社会之间的差异。一个机会绝对公平的社会是充分流动的,因此任何阶层都不具有相对优势,那么社会流动表中的各个元素都相等。我们把这样的社会流动表标准化,以矩阵J表示,矩阵J的所有元素均为1。于是,指标dPJ)就衡量了P代表的社会与机会绝对公平的社会之间的距离(Long & Ferrie, 2013)。如果dPQ)显著不等于零,且dPJ)>dQJ),则说明P描述的社会更不公平,而Q描述的社会相对于P更加公平。

相对于其他指标,dPQ)指标在分析社会流动性的现状和历史时,有两个重要的优势。首先,这个指标可以消除阶层结构变化对社会流动性度量的影响。这一点对于快速变迁的发展中国家非常重要。其次,指标对数据的要求不高。dPJ)值的本质是比较两个社会流动表的差别。只要能获得代表性的社会流动表,就可用此方法衡量社会流动性。

3.4.2 社会流动性的决定因素:反事实分析

Altham指标的局限是无法直接对社会流动性的决定因素进行深入分析。本研究基于反事实分析的思路,将Altham指标与多元离散选择模型结合,使其能够应用于因素分析。本研究重点关注教育不平等的影响。针对教育不平等对代际流动性的影响,提出“教育完全平等”的反事实假设:其他条件均不变时,子女教育水平变为相同年龄群体教育水平的平均值。

图3-1 本研究反事实分析框架

本研究的具体操作流程如下:①首先,计算原始社会流动表的dPJ)值。②通过多元离散选择模型,重点分析教育变量对子女阶层的影响。③构建反事实变量,即将子女教育变量的值变为相同年龄群体均值。④利用反事实变量和多元离散选择模型回归系数,预测反事实条件下的子女阶层。⑤构建反事实社会流动表,即根据预测得到的子女阶层和父亲阶层构建新的流动表。⑥计算反事实社会流动表的Altham指标,即,并与原始社会流动表的dPJ)对比。此反事实分析本质为多元离散选择模型,只是利用多元离散选择模型的回归结果,在反事实假设下进行预测,并对预测结果进行分析。此方法易于考察教育不平等等宏观因素的影响。

本研究反事实分析的准确度依赖于多元离散选择模型的预测能力,这就要求多元离散选择模型具有较高的拟合优度。多元离散选择模型的拟合优度依赖于回归样本的大小。针对不同年龄群组进行子样本回归,将使每一组子样本回归样本量较小,不利于获得稳健的结论。因此,本研究使用虚拟变量来识别不同年龄群组的差异。(11)设定虚拟变量G70G80,当子女所属群组为“70后”时,G70=1,否则G70=0;当子女为“80后”时,G80=1,否则G80=0;当子女为“60后”时,G70=0且G80=0。

首先从职业流动的视角阐释反事实分析所依赖的多元离散选择模型。考虑式(3-4),随机变量是影响个体i职业阶层的隐性变量。其中j=1,2,3或4分别代表管理人员、技术人员、服务职员和普通工人4种职业。Edu代表教育,为本研究的关键变量。Z向量包含了年龄、性别、婚姻、健康、父亲变量、环境变量和群组虚拟变量(G70G80)。αβγδ为变量系数,η为随机干扰项。

s表示劳动者的实际职业类别,则。定义,当εis<0时,职业类别为s。在随机干扰项(η)服从独立同分布,且分布形式可以用Gumbel分布描述时,劳动者职业类别为s的概率如式(3-5)所示。这是一个典型的Multinomial Logit(ML)模型。根据式(3-5),结合各选项概率和为1的约束条件,可以通过极大似然估计获得系数αβγδ的估计值。由于ML模型是基于相对概率的分析,我们设定参照组(Base Outcome)为“普通工人”。

根据多元离散选择模型回归结果,可分析某一变量对子女职业的影响。假定变量发生变化(子女受教育水平变为相同年龄群体受教育水平均值),则依据回归模型可预测变量变化后子女最可能的职业类别。根据预测的子女职业类别和父亲职业类别,可建立新的会流动表,即反事实流动表,进而计算值。原始社会流动表的dPJ)与反事实流动表的之差,可以反映教育不平等对代际流动性的影响。如果<dPJ),则意味着教育不平等降低了代际流动性。

3.4.3 稳健性检验

(1)IIA假设

Multinomial Logit模型便于估计,但依赖于独立不相关假设(Irrelevance of Independent Alternatives,IIA)。当IIA假设不成立时,一个可替代的选择是Multinomial Probit(MP)模型。MP模型假设随机干扰项服从正态分布,其计算过程较ML模型更为复杂。由于当前IIA假设检验方法效果并不理想,本研究直接进行MP模型回归,并与ML模型进行对比分析。

(2)样本选择问题

本研究使用的样本中部分成年子女职业数据缺失。如果缺失值非随机,则直接剔除变量缺失的观察值,可能会因数据截断(Data Truncation)问题而导致估计偏误。为此,本研究使用Lee & Marsh(2000)的模型处理样本选择问题。Lee & Marsh(2000)解决方案的核心思想是:多元离散选择分析使用的样本中,各类别内部的缺失值与完整观察值具有一定的比例,将这一比例作为模型参数引入极大似然估计的似然函数。此模型似然函数形式简洁,计算速度快。(12)

(3)内生性问题

受教育程度与向上流动的机会之间存在相互影响,而这种相互影响会导致内生性问题。理论和实证分析都表明教育是社会阶层流动的重要渠道(Black & Devereux, 2011)。反过来,当向上流动的机会较大时,子女或其父母会增加教育投资,延长其受教育年限。交互影响导致的内生性使普通极大似然估计的结果存在偏误。可利用工具变量,通过两阶段极大似然估计(Two Stage Maximum Likelihood,TSML)控制内生性问题。

本研究借鉴李仁玉等(2014),用CHNS提供的社区教育指数作为教育的工具变量。(13)使用社区教育指数作为本研究工具变量的合理性取决于工具变量的强度(Power)和效度(Validity)。工具变量的强度,是指社区教育指数与内生变量(子女教育)具有较强的相关性。社区教育指数与子女教育的相关系数为0.24;并且,以子女教育为被解释变量,以社区教育指数和其他变量为解释变量进行回归,工具变量系数统计显著,F值满足F>10的经验标准,表明不存在弱工具变量问题。

工具变量的效度是指工具变量满足“排除限制条件”(Exclusion Restriction),即社区教育指数不影响子女的职业和收入,或仅通过内生变量间接影响子女职业。关于社区教育指数是否对子女职业具有显著影响,可从邻里相关性的研究中得到一些启示。社区环境是邻里之间子女的相似成长环境,因此住在同一社区的子女职业和收入相关性可在一定程度上衡量社区环境的影响。既有实证文献所得的邻里子女相关性均非常低(秦雪征,2014)。较低的邻里相关性反映了社区环境对子女的影响较弱。而社区平均教育水平作为社区环境的一个元素,影响更弱。此外,从中国城市化发展实践来看,社区平均教育水平更可能是社区演化的结果,而非决定社区居民收入和职业的重要因素。改革开放以来,在人口流动和城市快速扩张过程中,城市社区发生了巨大的变化。新居民通过购房或租房选择特定社区居住。社区内居民选择了共同的社区,表明其消费品位具有相似性。相似的消费品位很大程度上取决于收入和教育背景,即学历相似的个体具备相似的收入和消费品位(效用函数),购房或租房决策也有相似性。因此,社区平均教育水平更可能是新居民不断进入社区导致的结果,发生在社区居民取得收入和职业后,并非决定社区居民收入和职业的重要变量。