比较.第117辑
上QQ阅读APP看书,第一时间看更新

使用观测性数据回答因果问题[1]

诺贝尔经济学奖评委会

绝大多数应用科学都致力于揭示因果关系。在许多领域,随机对照实验(RCT)被认为是实现这一目标的黄金准则。系统地使用随机对照实验研究因果关系,例如评估医疗效果,已经为社会带来了巨大的福利收益。然而,由于经济、伦理或实践方面的限制,有许多重要问题,尤其是社会科学领域的问题,人们无法使用随机对照实验加以研究。例如,学校停课对学生学习以及新冠病毒的传播会产生何种影响?低技能移民对当地劳动力市场的就业和工资水平有什么影响?制度会如何影响经济发展?实施最低工资政策对就业有何影响?在回答这些类型的问题时,研究人员只能仰赖观测性数据,即那些不是由随机对照实验生成的数据。但是在使用观测性数据时会出现一个基本的识别问题:我们并不清楚导致相关性的深层原因。如果我们观测到最低工资和失业之间存在相关性,这可以说明是因为最低工资导致了失业吗?还是因为失业和那些低收入者的工资增长过慢才导致了最低工资的引入?抑或是因为那些同时影响了失业和引入最低工资的其他因素?此外,在许多情况下,随机变动本身并不足以识别平均干预效应。

今年的经济学奖授予了三位学者:伯克利加州大学的戴维·卡德(David Card)、麻省理工学院的乔舒亚·安格里斯特(Joshua Angrist)和斯坦福大学的吉多·因本斯(Guido Imbens)。获奖者的贡献是独立的,但又彼此互补。从20世纪90年代初期的一系列论文开始,戴维·卡德开始使用“自然实验”,即一种研究设计,其分析包含的个体会随机地暴露于自然、制度或政策变动带来的变化之下,分析劳动经济学中的一些核心问题。这些最初的研究涉及最低工资、移民和教育政策的影响,它们挑战了对这些问题的传统认知,也成为后续复刻这些结果以及新的实证研究和理论研究迭代过程的起点,在这些过程中,卡德仍然是核心贡献者。得益于这项工作,我们对劳动力市场的运行方式有了更深入的了解。

在20世纪90年代中期,安格里斯特和因本斯为估计平均干预效应[2]这一任务做出了根本性的贡献。尤为突出的是,他们分析了个体受到同一干预的不同影响并选择是否遵从自然实验分配给他的干预时的现实场景。安格里斯特和因本斯表明,即使在这种较为一般的情况下,也可以在一组最小(并且在许多情况下具有经验合理性的)条件下估计出明确定义的干预效应,即局部平均干预效应(LATE)。在得出他们的主要成果时,他们合并了经济学中常见的工具变量(IV)框架与统计学中常见的因果推断的潜在结果框架。利用这个合并后的框架,他们厘清了因果设计中的核心识别假设,并提供了一种透明的方式来检查违反这些假设的敏感性。

不过,获奖者的综合贡献要大于各个部分的简单加总。卡德在20世纪90年代初期的研究中展示了在重要的领域利用自然实验揭示因果关系的力量。因此,这项早期工作使经验研究的重点从使用观测性数据转向了依靠准实验变动构建因果效应。反过来,无论是使用自然实验还是实验对象不完全遵从分配给他的干预的随机实验产生的数据,安格里斯特和因本斯开发的分析框架都显著改变了研究人员解决实证问题的方式。本质上,局部平均干预效应阐明了可以从此类实验中得到什么,以及无法得到什么。总而言之,获奖者的工作在建立所谓的基于设计的经济学方法(design-based approach in economics)方面发挥了核心作用。这种旨在模拟随机实验以使用观测性数据回答因果问题的方法改变了应用工作,并提高了研究人员使用观测性数据回答对经济和社会政策非常重要的因果问题的能力。

基于设计的研究方法:背景

直到20世纪80年代,经济学中有关因果推断的传统方法仍然依赖于结构方程模型,即依赖于设定的方程组捕捉行为关系:关于这一部分内容,请参阅莱特(Wright,1928)和1989年诺贝尔经济学奖获得者特里夫·哈维默(Trygve Haavelmo,1943,1944)的工作。然而,结构方程法的一个关键问题是,为了建立因果关系,必须正确设定相应的结构。

到20世纪80年代初期,人们逐渐认识到正确设定因果推断所需的结构模型面临的困难。[3]阿申费尔特(Ashenfelter,1978)指出了评估工作培训计划的困难所在,而拉隆德(Lalonde,1986)表明,针对同一个工作培训计划,使用实验估计(即使用随机的工作培训计划进行估计)得到的结果与使用标准经济学方法得到的结果存在系统性差异。这些结果为三位获奖者即将到来的创新提供了重要助力。

基于设计的研究方法:基于自然实验的新型可信证据

作为对拉隆德(1986)等研究结果的回应,20世纪80年代后期,劳动经济学家转而开始利用自然实验产生的数据。在某些情况下,由自然、政策或制度(变化)引起的变化意味着我们可以将受干预影响的人和不受干预影响的人分开,就好像干预的分配是随机的。早期且极具贡献和影响力的例子包括安格里斯特(1990)、卡德(1990)、安格里斯特和克鲁格(Angrist and Krueger,1991)、卡德和克鲁格(1992a,1994)。虽然并不是经济学家首先提出了因果推断的准实验方法,但在解决对经济和社会政策具有重要意义的问题时,准实验变动方法的系统性使用,迅速改变了应用微观经济研究和其他领域的实践。[4]这种变化主要不是关于使用新的经验研究方法,而是关于如何干预因果问题。自然实验的流程要求研究人员了解是什么机制决定哪些个体接受什么干预。因此,新方法需要了解待识别信息的来源,即它需要对自然实验的机制有所认知。

使用可论证的外生变动估计因果效应提供了新的、可信的以及与政策高度相关的证据。这些最初的发现激发了新的研究,研究成果也因此不断积累。卡德在最低工资方面的工作为这种迭代过程提供了很好的例子。

根据教科书中的劳动力市场竞争模型,最低工资的提高会导致就业大幅减少,20世纪80年代后期所能提供的证据普遍支持这一结论。卡德和克鲁格(1994)对这个结论提出了质疑。通过一项自然实验,利用来自美国两个相邻州(其中一个提高了最低工资)的数据,他们表明,提高最低工资并没有对就业产生负面影响。这一发现促使经济学家大量使用美国和其他国家的数据重新分析最低工资;从这些广泛的文献中得出的总体结论是,提高最低工资对就业的负面影响是有限的。卡德和克鲁格的结果还使研究人员开展了一系列的实证和理论工作以解释为什么最低工资对就业没有负面影响,并提出了得到经验证据支持的几种解释。一种解释是,单位劳动效率的成本并没有与最低工资同比例上升:例如,有证据表明,采用更高的最低工资标准后,员工的生产率有所提高。另一种解释是,受最低工资影响最大的本地服务提供商能够以更高的价格将成本增加转嫁给消费者,而且不会对产品需求造成太大的损失。第三种解释是企业在劳动力市场上具有垄断势力;由于企业的垄断势力对劳动力需求和劳动力供给的影响相互抵消,所以最低工资的影响是不明确的。[5]于是,在最低工资文献的推动下,又掀起了一波有关劳动力市场垄断的后果和企业工资结构变动如何影响工资不平等的研究热潮。虽然就此断定提高最低工资永远不会对就业产生负面影响是不恰当的,但现在的我们无疑比30年前更深入地了解了为什么可能出现这种情况。

基于设计的研究方法:局部平均干预效应框架

利用自然实验的第一波研究热潮得到了一些研究结果,由此引出了一些概念上有重要意义的问题。例如,对教育回报的准实验估计表明,回报的因果估计值高于使用普通最小二乘法(以下简称OLS)的简单估计值。这是令人惊讶的,因为研究人员预计OLS估计量会出现向上的“能力偏差”。[6]这些发现表明了考虑异质性效应的重要性。

第二个问题与遵从性有关。除了某些类型的临床对照实验外,准实验或者对实验安排的遵从几乎总是不完全的。例如,如果政策将义务教育的时间延长一年,那么全民平均受教育程度的增加将不到一年,因为在政策变化之前,有些人就已经接受了超过义务教育范畴的教育。同样,在随机对照实验中,个人可能会背离给定的干预方案(treatment protocol)。也就是说,完全遵从实验安排是一种例外情况而非准则。

那么,当实验人群中的不同个人反应各异且不完全遵从时,又该如何估计干预效应呢?医学领域的标准做法是估计并报告意向干预(intent-to-treatment)的估计值(时至今日仍然如此),也就是说,不管个人是否背离了给定的干预状态,都按照个人被分配到的干预状态来分析结果。在许多情况下,意向干预的估计值是一个值得关注的参数;在其他情况下,它则是唯一可以不需要施加额外假设就进行估计的因果参数。然而,意向干预估计值并没有估计个人遵从干预方案时的干预效应,而这一干预效应是一个非常关键的参数。重要的是,正如赫尔南和罗宾斯(Hernán and Robins,2017)讨论的那样,基于意向干预的分析可能会使原本并不安全的干预措施显得安全,或者使事实上有效的干预措施看起来无效。

在20世纪80年代后期,研究人员开始研究,在什么条件下可以估计存在异质性和不完全遵从的干预效应。这一领域文献的早期贡献者包括:张伯伦(Chamberlain,1986)、罗宾斯(1989)、赫克曼(Heckman,1990)和曼斯基(Manski,1990),他们专注于在什么条件下可以估计出平均干预效应,以及确定平均干预效应的边界。他们的贡献表明,只有在某些特殊情况下才可以估计出遵从者的因果效应[7];此外,在实际应用中,平均干预效应的边界往往太宽,以至于无法提供有效信息。

在其开创性的工作中,安格里斯特和因本斯(1994)以一种关键方式推动了此类文献的发展(另见Angrist and Imbens,1995;Angrist、Imbens and Rubin,1996)。具体而言,当总体中的反应存在异质性时(这是合理的假设),安格里斯特和因本斯在不对研究对象的行为做出限制的前提下,提出并重新阐述了如下问题:从随机实验或准实验研究中,可以估计出什么样的因果干预效应。在最少的假设下,他们的研究表明,那些依从实验或准实验分配的人的平均因果效应可以被估计出来,并且还由工具变量确定了这种效应。安格里斯特和因本斯将这种因果效应称为局部平均干预效应,有时也被称为遵从者平均因果效应。因此,安格里斯特和因本斯明确说明了在异质性来源未知(并且无法建模和估计)的情况下如何解释干预效应。

在论证其主要结论的过程中,安格里斯特和因本斯做出了更广泛的贡献。他们根据潜在结果展开分析,以此将经济学中发明的工具变量框架与统计学中发展出来的用于因果推断的潜在结果框架相结合。而这反过来又产生了一个一般性框架,提高了研究人员证明因果关系、解释研究结果的能力;特别是,它使识别假设的性质变得清晰,并允许研究人员评估经验设计对偏离这些假设的敏感性。在经济学以及一些其他领域,这些优点使该框架成为准实验和实验工作的主导框架。此外,安格里斯特和因本斯提供的基本框架已经用于检验识别局部平均干预效应所需的假设,并且还被用于研究使用其他因果推断方法(包括断点回归设计,Hahn、Todd and van der Klaauw,2001)以及双重差分设计(例如,de Chaisemartin and D'Haultfoeuille,2020)时识别因果效应所需的条件。[8]

概述

本文的其余部分组织如下。第1节通过讨论经济学中因果推断的不同方法,引入自然实验的思想。第2节重点介绍了卡德在三个领域的研究贡献:最低工资、移民的影响和教育政策。这一讨论涵盖了他最初的开创性工作,以及受这些论文激发的后续工作,还有近30年我们从这三个领域的研究中学到的东西。早期和后期的文献涉及多位研究人员,而卡德一直是其中的主要贡献者。另一位重要的研究者是艾伦·克鲁格,他于2019年去世;除其他的贡献外,许多早期的重要研究都是他与卡德合著的。安格里斯特也对早期的文献做出了贡献,这部分体现在他与克鲁格合著的一篇论文中,我们会在第1节讨论这篇文献。

第3节介绍了安格里斯特和因本斯对基于设计的研究方法的方法论贡献。它说明了当存在异质性干预效应时,在潜在结果框架中使用工具变量会如何阐明此类分析所需的假设,并讨论了对干预效应的解释。第4节简要介绍了基于设计的研究方法出现后的科学讨论。第5节是结束语。

1.问题引入:经济学中的因果推断

读完高中有什么好处?这肯定是很多家长和孩子心中的疑问。而这个问题的答案肯定会包含这样一个组成部分,那就是拿到高中文凭会如何影响学生未来的收入。由于教育回报率既是一个与政策高度相关的参数,又有助于理解劳动力市场的不平等,许多经济学研究都探讨了受教育程度与未来劳动力市场结果之间的关系。那么,人们该如何回答上述因果问题呢?现在,我们来介绍今年获奖者的贡献,并通过这个实际问题将它们置于获奖者早期工作的背景当中。

在开始分析之前,我们需要分离出单个因素(完成高中与否)的影响,并比较两种无法同时出现的结果。最终每个人都只能选择一条路径,但我们需要将此路径与“反事实”路径进行比较,以确定读完高中对未来收入的影响。事实上,几乎所有决策都具有这一特征,不仅对父母和孩子如此,对公司和其他组织来说也是如此。假设政府考虑改变政策,例如引入最低工资。在做出决定之前,政府想要知道在有和没有最低工资两种情况下的经济运行情况分别如何。但是,我们只能在事后观察到所有可能情况中的一种。

让我们回到教育对收入的影响这个问题。一个自然的切入点是查看数据。图1展示了美国人口普查数据中部分样本的收入对数y和受教育程度s之间的横截面关系。可以看到,收入和受教育程度显然是正相关的。平均而言,多接受一年学校教育,收入会增加约7%。如果我们关注高中毕业率,即比较受教育年限为12年和11年的个体,估计出的回报率更高,超过11%。明塞尔(Mincer,1958)以及其他研究人员使用类似数据做出了大量研究。这些工作表明,收入与受教育程度的关系是一个可靠的经验规律,存在于所有可能的环境中。

然而,我们不能直接把图1中的关系解释为因果关系。持怀疑态度的主要原因是收入差异可能是由其他因素导致的,而这些因素也会影响在校接受教育的时间长短;毕竟,这些数据涵盖了在许多方面都存在差异的大量个体。例如,一个人可能在许多活动中天生就非常“有能力”,既能在学校取得好成绩,也能在工作中获得高收入。事实上,有可能接受更多年限的学校教育根本不会带来更高的收入,而该图只说明有能力的人会接受更长时间的学校教育,并拥有更高的收入。如果可以控制所有相关的个体特征,我们就可以解决这个问题。个体的许多特征确实是可以观测到的,但还有许多相关的因素,如“能力”“动机”“努力工作的意愿”等则不容易被观测到。因此,我们不能简单地通过为所有可能的群体都画出一幅相同的图表来解决问题,因为我们没有相关的数据。在基于观测数据的实证分析中,未被观测到的异质性通常是一个主要的挑战。我们该怎么办呢?

图1 收入和受教育年限的横截面关系

回归线的斜率:0.071;当受教育年限为12年(s=12)时周收入的对数:0.113

注:该图基于Angrist and Krueger(1991)使用的数据。该数据集来自1980年美国人口普查,涵盖了1930—1939年出生的男性。受过11年教育的个体的收入对数值标准化为0。

1989年的经济学诺奖得主哈维默将经济理论和实证方法相结合,提出了一条研究进路。他的方法与我们要介绍的方法有所不同,把他的理论按照我们的语境转述,就是以两个函数f(·)和g(·)的形式来描述因果机制,这两个函数使收入水平(y)和受教育年限(s)关联起来:y=fs,X)和s=gy,X)。映射f(·)代表了如何获取收入的理论;映射g(·)则描述了受教育年数是如何被决定的;此外,X是一个(长)向量,其中包含随机冲击和个人特征,其中一些特征可能无法被观测到。

这里明显存在的一个问题是,X作为一个难以观测的元素(比如能力)可能会同时影响ys。哈维默提出的研究进路是,人们可以想象X的某个要素,我们不妨称之为z,z只会出现在g(·)中而不会出现在f(·)中,即z会影响s但不直接影响y。因此,在计量经济学术语中,z是可用于构建s变量的“工具”;工具变量法最初由莱特(1928)提出。许多研究人员都遵循哈维默的方法。这一方法在经济学领域取得了重大成功,并产生了许多洞见。2000年诺贝尔经济学奖授予劳动经济学家詹姆斯·赫克曼;2011年授予宏观经济学家托马斯·萨金特(Thomas Sargent)和克里斯托弗·西姆斯(Christopher Sims),奖励他们基于各自子领域中不同程度的理论假设做出的相关贡献。不同的子领域面临着不同的挑战:可以说,在宏观经济学中,特别难以找到完全令人信服的工具变量,因此长期以来,在该领域理论模型都发挥了更大的作用。

使用工具变量的计量经济学分析仍然是该学科的核心,今年获奖的研究也是如此。然而,挑战也是切实存在的:有效的工具变量从何而来?我们怎样才能找到我们想要的z?在我们讨论的这个应用中,该工具变量影响受教育年限,但对收入没有直接影响。当我们试图想象备选的z时,这种排除限制无疑就成了一个问题。

今年获奖研究的一个关键方面,是它展示了定义有效工具的新方法,这些方法需要的理论假设要少得多。研究人员采取的路径是利用所谓的自然实验,在受教育年限的例子中,这可以看作是独立于y但改变s的方式:自然实验给了我们相当于z的方法。自然实验经常出现在观测性数据中,令人惊讶的是,它们经常可以提供“类似”受控实验的实际案例。特别是,获奖者以及在他们之后跟进这一领域的研究人员为了理解人类行为与政策制定,找到了大量与经济学存在显著关联性的自然实验。之前在社会科学中已经提出了使用自然实验的想法(见下文),但它们在经济学中的重要性还没有受到重视。

为了理解自然实验的工作原理,让我们首先回到受控实验中关于因果关系的核心问题。为了正式定义因果效应,我们需要了解潜在结果的概念,潜在结果的概念由内曼(Neyman,1923)引入并由鲁宾(Rubin,1974,1977)进一步完善和扩展。假设我们想要研究的是读完高中与否对收入的因果效应。对每个人来说,有两种潜在的结果:Yi(1)与该人读完高中时的收入结果有关,Yi(0)与该人没有完成高中学业时的收入结果有关。个人i的因果效应被定义为这两个潜在结果之间的差,即βi=Yi(1)-Yi(0)。由于一个人不能同时处于读完和未读完高中的状态,总有一个潜在结果(即反事实)是缺失的。因此,如果不做出强有力的假设,我们就无法估计读完高中对个人的因果影响。通过适当的实证设计和大量个人的数据,在某些情况下,我们可以估计完成高中学业与否对收入的平均因果效应。

假设我们可以得到大量个人的收入数据Yi,以及他们是否读完了高中的数据,Di=1表示读完了高中,Di=0表示未读完高中。两个群体之间观察到的平均收入差异就是Δ=E[YiDi=1]-E[YiDi=0]=E[Yi(1)∣Di=1]-E[Yi(0)∣Di=0]的一个估计值。然而,Δ不太可能是我们感兴趣的因果效应。要正式地看到这一点,需要减去并加上反事实项E[Yi(0)∣Di=1],其结果是:

这个表达式中的第一项,E[(Yi(1)-Yi(0))∣Di=1],是我们感兴趣的因果效应。在这一示例中,它提供了以下问题的答案:读完高中对收入的影响是什么?第二项E[Yi(0)∣Di=1]-E[Yi(0)∣Di=0],则代表了选择性偏差。它衡量了读完高中和未读完高中的两个群体,如果都没有读完高中,他们的收入会有多大的不同。由于上述原因,那些实际上读完高中的人,即使他们没有读完高中,也可能比未读完的人收入更高,这意味着在这个例子中选择性偏差是正向的。在这种情况下,均值之差Δ为是否完成高中学业对收入的因果影响提供了一个向上有偏的估计值。

1.1 随机对照实验

在医学领域,双盲随机实验通常用于确定治疗效应。例如,可以随机给一批患者服用特定药物和一种安慰剂,然后比较服用该药物的人和服用安慰剂的人的健康状况。[9]这种方法具有巨大的价值,尽管它仍然不能在个体层面得到反事实结果;但是由于是随机分配(和双盲试验方案),所以在没有干预的情况下,服用药物和服用安慰剂组中的患者应该是相似的(而且行为上也相似)。如果患者完全遵从随机分配,就可以根据这一特征推断药物对实验人群的健康结果的平均因果效应。

在理想的实验中,D是随机分配的,潜在结果与治疗状态无关。因而可以预期,观察到的结果只会因为患者被分配到治疗组或对照组而有所不同。这个结果非常依赖对随机分配的完全遵从性,即分配到治疗组的所有患者都接受治疗,而对照组中的患者则不会接受治疗。因此,在某些条件下,随机实验为实验人群的平均治疗效应提供了无偏估计。[10]这样说来,理想的实验具有很强的内部有效性,也就是说,它回答了实验人群和实验的研究背景问题。确定结果是否可以外推到其他人群和其他环境,即从实验中得出的估计是否具有外部有效性,则需要开展进一步的实验。[11]

使用随机对照实验揭示因果关系的可能性已经彻底改变了许多学科。例如,几十年来,随机对照实验一直是医学研究的规范;最近,在发展经济学等领域,田野实验也开始被越来越多地使用。随机实验可用于回答广泛存在的因果问题,2019年经济学诺奖得主阿比吉特·班纳吉(Abhijit Banerjee)、埃丝特·迪弗洛(Esther Duflo)和迈克尔·克雷默(Michael Kremer)的工作就说明了这一点。但该方法要求研究人员可以将感兴趣的干预分配给研究对象,而对经济学中的许多重要问题,无论在实践上还是在伦理上,这都是不可能的。在有关受教育程度的例子中,随机对照实验的做法是,挑出一些学生,强制他们不完成高中学业;而其他人则可以完成高中学业,甚至被迫完成高中学业。

作为一种有用的思想实验,随机对照实验的概念可以追溯到很久以前。在上述研究背景下,哈维默(1944)实际上认为,任何定量理论都应该描述研究人员为了分离特定理论机制想要进行的概念实验(notional experiment)。对这种机制的识别同样也可能得益于“大自然在她自己巨大的实验室中稳步进行的一系列实验”(Haavelmo,1944,第14页)。我们接下来就转向这些自然实验。

1.2 自然实验

自然实验是不受研究对象控制的事件或情况,它会使研究者感兴趣的变量产生变化,并且这一变化就好像是随机分配的一样。潜在变化(即自然实验)可能来自政策变化、行政规则、自然发生的随机变化(例如出生日期、天气冲击),或来自不可预见的事件(例如移民潮)等。自然实验为受控实验提供了有力的补充;在过去30年的应用微观经济学中,使用自然实验进行因果推断的情况出现了爆炸式增长。

然而,利用自然实验进行因果推断的想法可以追溯到更久远的年代(如上面对哈维默的引用)。唐纳德·坎贝尔是准实验方法的早期支持者(如Campbell,1969),并且还开发了一种目前流行的经验方法,即断点回归设计(Thistlewaite and Campbell,1960),以期从自然实验中估计因果效应。这种设计基于阈值(threshold)的存在,例如,阈值一侧的个人受到干预,而另一侧的个人则没有。如果阈值附近个人的(观测到的和未观测到的)特征彼此非常相似,那么就可以使用断点回归设计来估计干预效应。在下一小节将给出几个示例,说明断点回归设计的阈值规则。

今年经济学奖的一半颁发给戴维·卡德,因为他增进了我们对劳动力市场运行方式的理解。在20世纪90年代初期的一些重要研究中,他使用自然实验为劳动经济学的核心主题带来了新的证据。然而,卡德的影响不仅限于第2节中讨论的实质性成果。他的工作以及安格里斯特和克鲁格等人的工作帮助研究者塑造了基于自然实验的实证研究方法。这种基于设计的新方法使用概念实验作为指导框架。

大自然的试验洪流

在经济学及其他领域中,已经出现了数以千计的使用自然实验进行研究的文献,现在让我们简要描述其中的一小部分。这里的目的是为了说明研究人员如何使用自然发生的准实验中看似合理的外部变动来解决重要问题。

生育率如何影响父母的劳动力供给?回答这个问题需要一种可以解决反向因果关系的经验策略,即生育率很可能取决于个人在劳动力市场的前景。因此,安格里斯特和埃文斯(Angrist and Evans,1998)使用了父母对儿女双全的偏好,也就是说,头两个孩子性别相同的家庭更有可能生第三个孩子。此外,孩子的性别是随机的,这意味着孩子的性别构成可以作为一个工具变量。使用这个自然实验,安格里斯特和埃文斯发现生育率对女性劳动力供给的负面影响略大于普通最小二乘的估计值。

在医疗保健领域,阈值规则用于确定何时实施医疗干预的情况也并不少见。例如,低于1 500克的新生儿通常被归类为低出生体重,他们会接受额外的医疗护理。为了调查这些医疗干预措施在多大程度上挽救和改善了低出生体重儿的生活,阿尔蒙德等人(Almond、Doyle Jr.、Kowalski and Williams,2010)比较了刚好高于和低于1 500克阈值的新生儿的结果。他们发现,体重略低于1 500克的新生儿在一年内的死亡率更低,尽管数据中死亡率与出生体重之间的相关性为负。

与上文教育回报案例相关的一类问题是参加特定教育计划或就读某些特定学校的回报。当报名者超过了课程或学校提供的名额时,通常会有一个入学门槛,高于门槛的学生被录取,低于门槛的学生不被录取。由于可以预期刚好高于和低于准入门槛的学生彼此非常相似,因此研究者能够可信地比较那些位于录取边缘的学生和位于录取边缘但未被录取的学生未来的情况。有一些研究即使用了此类准入门槛带来的变化(参见Kirkebøen、Leuven and Mogstad,2016;也可参见Pop-Eleches and Urquiola,2013)。

政治学中一个长期存在的问题是在位者是否会因为他正在掌权而更有可能赢得下一次选举。这个问题很难回答,因为我们需要区分在位本身的影响和导致在位者赢得上次选举的那些品质。然而,在势均力敌的选举中,勉强获胜的政客和堪堪输掉的政客在选民眼中应该是大致相同的,因此可以通过势均力敌的选举来识别在位的影响。有学者(Lee,2008)使用这种策略,得出了如下结论:在位带来的优势是巨大的。

一个重要的政策问题是失业保险的扩展是否会导致失业率上升。这个问题已经通过几个自然实验得到了解决。例如,拉利韦(Lalive,2008)使用了20世纪80年代后期奥地利大规模扩展失业保险福利(从7个月到4年)带来的变化。这一福利扩展适用于居住在某些地区并且年龄在50岁以上的员工。拉利韦比较了年龄阈值两侧的个人以及与失业保险扩展地区的地理边界邻近的个人,由此得出的结论是失业持续时间增加了约15周。随后,拉利韦等人(Lalive、Landais and Zweimuller,2015)使用相同的改革分析失业保险扩展的影响是否溢出到改革未覆盖的其他员工身上。他们使用双重差分(DiD)设计比较了失业保险扩展地区和未扩展地区不符合条件的员工,其劳动力市场结果是如何演变的,并由此得出结论:对失业保险未扩展的员工来说,其劳动力市场前景有所改善。[12]

有时,政府希望使用临时财政刺激方案稳定经济。为了检验退税是否会影响美国的家庭消费支出,约翰逊等人(Johnson、Parker and Souleles,2006)利用了如下事实:家庭收到退税的确切周数是随机分配的(取决于纳税人社会保障号码的倒数第二个数字)。因此,他们可以可信地比较一个月内在不同周接收退税的家庭在每周的消费支出。他们发现,家庭将大约30%的退税用于购买非耐用品。

在上述所有案例中,与政策相关的事件,或“自然发生”的偶然事件产生了不在计划中的实验。然而,也确实存在随机的政策,这些政策的出台完全不是出于某个科学的目的。在瑞典,一个有趣的例子是政府发行的储蓄工具,即部分利息随机化的债券。也就是说,储蓄者可以在实际储蓄中随机赚取大量(或少量)的利息,而且大部分瑞典人都投资于这些债券。研究人员使用投资于这些债券的个人数据来研究额外财富对许多重要变量(如工作时间、健康和心理健康等)会产生什么影响(见Cesarini、Lindqvist、Östling and Wallace,2016,以及Cesarini、Lindqvist、Notowidigdo and Östling,2017)。

回顾学校教育年限的例子

为了加深对学校教育如何影响收入的理解,经济学家也使用了一些自然实验。在这里,我们重点关注安格里斯特和克鲁格(1991)的里程碑式研究,关于这一研究,我们也会在第2节和第3节中讨论。他们指出,个人的出生日期可能对高中毕业和更普遍的受教育程度产生影响。原因是美国立法规定了义务教育的离校年龄:学生达到一定年龄就可以离校。但是,所有在特定州和特定年份出生的学生都在同一时间入学。这意味着在一年中出生日期较早的学生将比其他学生更早达到退学的合法年龄,而有些学生确实也这样做了。因此,安格里斯特和克鲁格认为,学生的出生日期可以作为一种工具变量z:这一变量影响了受教育年限,但本身对收入没有直接影响。在数据中,他们观察到的是学生的出生季度而非出生日期,但出生季度仍然有可能出现在g(·)中,而不会出现在f(·)中。这并非将学生人为分配到读完高中组和未读完高中组的受控实验,但它仍然具有这些特征。

图2使用与安格里斯特和克鲁格(1991)相同的数据说明了受教育年限与出生季度之间的关系。黑色圆圈表示第一季度出生者的平均受教育年限,而灰色圆圈表示第四季度出生者的平均受教育年限。第一季度出生的人的受教育年限始终少于第四季度出生的人。平均而言,两组之间受教育年限的差异是0.15年。图3显示了收入(对数)方面的类似证据。平均而言,第四季度出生的人,其收入比第一季度出生的人要高1.4%。

图2 出生季度与受教育年限的关系

注:该图基于Angrist and Krueger(1991)使用的数据。该数据集来自1980年美国人口普查,涵盖了1930—1939年出生的男性。黑色圆圈表示第一季度出生的男性的平均受教育年限;灰色圆圈表示第四季度出生的男性的平均受教育年限。两组之间的差异为0.1514年。

收入差异与受教育年限差异之间的比率是对教育回报率的工具变量估计。在这种特殊情况下,工具变量估计值等于0.089。换句话说,额外多上一年学的因果回报约为9%。因此,也许令人惊讶的是,安格里斯特和克鲁格发现了一种比图1中回归线斜率还略高一些的因果关系。然而正如我们将看到的,这并不是故事的结局。准实验变动主要影响了那些试图尽快离开学校的人。这部分样本的教育回报很可能不能代表总体样本。用对照实验的语言来说,那些不受自然实验影响的人是“非遵从者”,由于干预效应的异质性,他们的教育回报可能与“遵从者”不同。

图3 周收入的对数与出生季度之间的关系

注:该图基于Angrist and Krueger(1991)使用的数据。该数据集来自1980年美国人口普查,涵盖1930—1939年出生的男性。黑色圆圈表示第一季度出生的男性的平均收入对数;灰色圆圈表示第四季度出生的男性的平均收入对数。两组之间的差异为0.0135。

1.3 在一个不完全遵从和存在个体异质性的世界中分析因果效应

上面的讨论清楚地表明,个体因果效应βi=Yi(1)-Yi(0)可能因个体和周围环境而异。这引发了许多新问题,与数据变动的来源是随机对照实验还是自然实验无关。因此,即使在很少能有完全遵从的医学领域,也会出现这些问题。

对干预分配的不完全遵从使得确定平均干预效应更加困难,当研究人群中的因果效应相异时更是如此。问题的核心是,当只能控制干预的分配而不能确保被分配到干预的个体会真正接受干预时,选择性偏差会再次出现。由于在研究人群中选出的子人群决定了对分配的遵从,因此两个组之间的均值之差就不再能提供平均干预效应的无偏估计。然而,均值之差仍然捕捉到了一个因果效应,即分配的因果效应。这种效应通常被称为意向干预效应。也就是说,意向干预分析提供了对研究总体中干预分配结果的无偏估计,而不是干预本身的因果效应。

在第3节中,我们将讨论安格里斯特和因本斯的核心贡献。与早期的文献相比,他们提出了一个基本问题:在不给研究对象的行为施加额外限制的情况下,从随机或自然实验中可以得到什么,以及无法得到什么。为了回答这个问题,他们引入了一个将工具变量与随机实验联系起来的框架。他们用最少的一组假设证明,估计遵从者的平均因果效应是有可能的。[13]他们的工作在经济学以及其他一些学科中都被证明是非常有价值的,因为不完全遵从是普遍存在的问题。

让我们回到接受学校教育的例子。由于安格里斯特和因本斯的贡献,我们现在知道如何正确解释安格里斯特和克鲁格(1991)的发现。特别是,他们的工具变量估计应该被解释为遵从者的平均教育回报。他们的估计因此得以推广到研究人群的某个子人群中,在这个子人群中,不同的出生日期会影响个体的受教育程度。在没有进一步假设的情况下,对于那些没有受到自然实验影响的人,我们几乎无法得到任何有用的结论。

2.理解劳动力市场

在过去的50年中,不平等情况发生了相当大的变化。收入不平等在经历了20世纪70年代的下降,自80年代初以来急剧上升。收入不平等的快速上升大部分由薪酬不平等的加剧驱动(Atkinson and Piketty,2010)。在大多数工业化国家都可以观测到这种激升,但在美国和英国,上升的程度比在欧洲大陆和北欧国家要大得多。

收入不平等根本上取决于技能的需求和供应。供需变化如何影响劳动力市场结果取决于制度设计(例如集体谈判和劳动法)。某些政策,如教育和移民政策,会直接影响技能供给,而最低工资政策这样的另一些政策则主要影响需求侧。了解劳动力市场结果需要一个关于劳动力市场如何运作的现实模型,以及关于不同政策如何影响工资和就业的信息。

评估不同政策(或任何其他变化)如何影响劳动力市场结果是一项重大的任务。正如上一节强调的,我们需要对反事实结果有深刻的理解,以估计特定政策的因果影响:在另一种状态下会发生什么?由于变化通常是有原因的,例如,政策通常是为了解决特定问题引入的,所以回答这个反事实问题变得十分复杂。

在20世纪90年代初期的一系列论文中,卡德严谨清晰地分析了一系列世纪难题:最低工资对就业的影响、移民对劳动力市场的影响以及教育投资对劳动力市场结果的影响。通过使用新颖的、先验的、更可信的方法解决这些问题,卡德能够得到更可靠的新答案。从最初研究中得出的结果激发了对劳动力市场运作方式的再分析和理论研究,卡德本人是其中的主要贡献者。由于卡德发起的研究以及随后的工作,我们对政策影响劳动力市场结果的潜力、移民对工资和就业差异的影响,以及企业在引致收入不平等中的作用有了更好的了解。

本节的其余小节分别简要回顾卡德在最低工资、移民和教育政策方面最初的开创性工作。我们也会讨论这些初始研究激发的后续工作,最后总结我们当前在知识积累方面的进展。

虽然本节重点介绍了卡德在几个特定领域的工作,但他的贡献远不止这些。例如,他还从事过与劳动力市场计划和失业保险有关的重要工作;阿申费尔特和卡德(1985)的研究,卡德、切蒂和韦伯(Card、Chetty and Weber,2007)的研究就是两个例子。他的另一个研究主题是工会和工资谈判如何影响工资不平等,这方面的一个例子是他在1996年发表的论文。他的研究不仅仅是实证方面的,在许多时候,他将实证工作与解释性框架或明确的理论相结合。

2.1 最低工资对就业的影响

最低工资可能是减少低收入人群贫困的重要政策工具。然而,具有约束力的最低工资会增加用人单位的工资成本,从而可能减少就业;因此,低工资员工最终能否从最低工资政策中受益是不确定的。经济学家长期以来一直在研究最低工资对就业的影响。教科书中的竞争模型表明,如果实施最低工资政策使工资高于均衡水平,就业将大幅下降。1990年之前,关于最低工资影响的证据往往与教科书模型一致。这些证据主要基于时间序列数据,其中青少年雇员(最有可能受最低工资政策影响的人)的相对就业情况受最低工资政策的影响较大,即相对于平均(或中位数)工资的最低工资水平影响青少年雇员的就业,布朗等人(Brown、Gilroy and Kohen,1982)对这些文献进行过综述。

然而,确定最低工资的因果效应颇具挑战性,尤其是在时间序列环境中。[14]最低工资的实施(或更改)是有原因的,其根本原因可能与就业前景的变化有关。例如,商业周期的低迷表现为就业下降和工资增长放缓,对低收入者而言尤其如此。低收入者工资增长缓慢反过来可能会引起不满,进而引发要求提高最低工资以保护在职低收入者的呼声。如果政策制定者根据这些要求采取行动,就会出现就业下降导致最低工资增加的情况,而不是相反。

卡德的早期贡献

1992年,《工业和劳工关系评论》( Industrial and Labor Relations Review)发表了“新最低工资研究”这一专题研讨会的成果。研讨会中的论文报告了最低工资对就业影响的估计值,这一估计结果基于各州就业水平随时间的变化。与使用时间序列数据的研究相比,这些研究可以灵活地控制共同的时间趋势。这些论文中的部分发现与先前的证据不一致。作为背景,在更为详细地讨论卡德(1992a,1992b)以及卡茨和克鲁格(1992)[15]这三篇论文之后,我们会转向讨论卡德和克鲁格1994年的论文。我们在本小节涉及的论文与之前的时间序列证据不同,因为它们清楚地阐明了最低工资变化的来源以及在估计其对就业的影响时进行比较的本质。[16]

在工资和就业率的变化方面,卡德(1992a)比较了1988年最低工资提高了27%的加利福尼亚州与最低工资政策没有改变的州。1987—1989年,与对照州相比,加利福尼亚州青少年雇员的工资增长了10%。尽管工资有所增加,但没有证据表明青少年的就业率下降了。事实上,与对照州相比,加利福尼亚州的就业率增加了4%。这一双重差分估计看起来是劳动参与率提高带来的结果。

卡德(1992b)利用了如下事实:全国性最低工资变化对各州有不同影响,但这取决于每个州的初始工资分布情况。例如,1990年美国联邦最低工资的增加可能影响了南部一些州超过50%的青少年雇员,而这一数值在新英格兰地区的一些州只有5%。卡德发现,在受影响的青少年雇员比例更大的

州,工资增长更多,但青少年就业率没有变化。

卡茨和克鲁格(1992)利用的一个事实是不同机构薪酬低于新最低工资的劳动力比例不同,这些机构受到最低工资变化的影响也不尽相同。卡茨和克鲁格对1990年和1991年美国联邦最低工资提高前后的得克萨斯州快餐店进行了研究,他们的研究结果与卡德(1992a)的一致:受影响较大的机构的起付工资(starting wage)有所增加,并且总体而言,这些机构的就业人数也有所增加。

这些基于面板数据的研究有一个挥之不去的问题,就是有些州提高最低工资而其他州没有提高的原因并不总是很清楚。也许实施更严格的最低工资政策的州已经暴露在劳动力市场的负面冲击中,反之亦然。理想情况下,人们希望保持就业前景不变,而只有最低工资发生了改变。为了实现这一点,卡德和克鲁格(1994)比较了两个被州界隔开的相邻地区,这些地区受到不同的最低工资政策的影响。其背后的想法是,这两个相邻地区经历了类似的经济冲击;因此,一个地区可以用作另一个地区的反事实情形。[17]

更具体地说,卡德和克鲁格(1994)研究了1992年4月新泽西州最低工资从每小时4.25美元增加到5.05美元的影响。继卡茨和克鲁格(1992)之后,他们研究了新泽西州和宾夕法尼亚州东部(宾夕法尼亚州的最低工资保持在每小时4.25美元)的410家快餐店,并记录了新泽西州引入更高的最低工资之前和之后的数据。

图4展示了与宾夕法尼亚州东部相比,最低工资提高前后新泽西州的起付工资分布。在政策改变之前,两个州的分布看起来很相似。政策变化后,新泽西州支付新最低工资的餐厅比例急剧增加。平均而言,新泽西州的起付工资比宾夕法尼亚州高了11%。那么,就业受到了怎样的影响呢?图5的左侧分别展示了新泽西州和宾夕法尼亚州东部的就业变化。宾夕法尼亚州的就业人数有所下降,而新泽西州的就业人数略有增加。因此,没有证据表明提高最低工资导致了就业下降。

图5的右侧比较了被迫大幅提高工资的快餐店(最初为4.25美元)与基本未受影响的快餐店(最初为5.00美元以上)。如果提高最低工资对就业的影响是负面的,我们应该看到低起付工资的快餐店的就业率相对于高起付工资的快餐店会有所下降。但同样,数据也没有显示这一情况。[18]

图4 提高最低工资前后的起付工资率分布

注:左图为政策变动前(1992年2—3月)的分布情况,右图为政策变动后(1992年11—12月)的分布情况。

资料来源:Card and Krueger(1995)。

图5 就业影响的简化形式

注:左侧展示了新泽西州和宾夕法尼亚州的快餐店在提高最低工资前后每家店的平均就业人数。右侧图根据提高最低工资前起付工资的差异比较了新泽西州内快餐店的情况。

资料来源:Card and Krueger(1995)。

卡德和克鲁格(1995)使用多种研究方法总结并扩展了关于最低工资影响的证据。他们的分析表明,最低工资不会对就业产生不利影响。[19]

之后的证据

卡德和克鲁格(1995)总结的发现与先前的证据和标准教科书模型不一致。不出所料,这些发现激发了美国和其他国家针对这一问题的重新分析。

坚吉兹等人(Cengiz、Dube、Lindner and Zipperer,2019)研究了美国138项最低工资变化的影响,并得出结论认为受影响员工的就业前景与最低工资无关。最低工资变化会导致原工资水平低于新最低工资的那部分人的就业人数减少,说明最低工资变化具有约束力,但原工资水平略高于新最低工资的人群有同等规模的就业增长,从而起到了抵消作用。

沃尔夫森和贝尔曼(Wolfson and Belman,2019)对2000年以来发表的37项最低工资研究进行了元分析(meta-analysis)。就业相对于最低工资的(精确加权平均)弹性为-0.024;最低工资提高10%,会使就业减少0.24%。-0.024的估计值很小但统计上显著;这一估计的绝对值比布朗等人(Brown、Gilroy and Kohen,1982)报告的基于时间序列证据的共识范围[-0.3,-0.1]小一个数量级。

另一种总结证据的方法就是报告就业的工资弹性。工资弹性考虑了提高最低工资对工资的影响;因此,这种弹性更容易在基于不同群体或国家的研究之间进行比较。杜比(Dube,2019)总结了36项有关美国的研究中关于工资弹性的证据。36项研究的中位数估计值为-0.17,即(最低工资引起的)工资增加10%会使就业减少1.7%。因此,关于美国的后续研究证据也证明了最低工资对就业的影响很小。

目前尚不清楚美国的证据是否适用于其他国家。与其他地方观察到的全国性最低工资相比,美国的联邦最低工资较低。[20]在20世纪90年代初期如此(Card and Krueger,1995),今天仍然如此(Manning,2021)。最低工资以工资中位数的30%还是工资中位数的70%作为基准线,其提高产生的影响有可能是不同的。尽管如此,曼宁(Manning,2021)和杜比(2019)总结的国际证据表明,尽管其他国家的最低工资高于美国,但其对就业的影响也相对较小。来自不同国家的48个工资弹性估计值的中位数为-0.16(Dube,2019)。

大多数证据都分析了最低工资的短期影响。然而,由于资本劳动替代关系的存在,长期就业效应可能比短期效应更加负面。豪劳斯托希和林德纳(Ha rasztosi and Lindner,2019)研究了匈牙利大幅提高最低工资的影响。他们追踪了最低工资提高1~4年后对就业的影响。结果发现,第4年影响的绝对规模仅略大于第1年的影响。[21]

解释

对于只有很有限的证据说明最低工资对就业产生了负面影响这件事,我们应该如何理解呢?下面我们将讨论一些可能的解释以及支持这些解释的证据。[22]

劳动力成本。除工资以外,薪酬方案还有更多的组成部分。为应对最低工资的增加,企业可能会降低一揽子方案中其他部分的价值,这意味着总的劳动力成本不会与最低工资同比例增加。就业下降证据有限的另一个原因,是公司面临着招聘和培训等形式的摩擦成本。工资的增加可能会减少公司的员工外流,从而节省公司的流动成本(进一步的论证,参见Portugal and Cardoso,2006;Dube、Lester and Reich,2016)。因此,总劳动力成本的上升幅度与最低工资的增长幅度不同。

生产率。最低工资也可能提高生产率,因为最低工资提高后,员工们目前的工作变得更有价值。科维洛等人(Coviello、DeSerrano and Persico,2020)表明,作为对最低工资上涨的回应,美国一家大型零售商的员工生产效率得到了提高,而利润和就业则没有受到影响。由于再分配效应,总体生产效率也可能会上升。达斯特曼(Dustmann et al.,2020)表明,德国引入最低工资使低工资员工从低薪的小公司转向规模更大、薪酬更高的公司。

价格反应。最低工资主要在当地市场提供的低工资服务部门中“发挥作用”,例如卡茨和克鲁格(1992)以及卡德和克鲁格(1994)分析的快餐店。最低工资变化,无论是在州层面还是国家层面,都会影响当地全部的服务提供者。他们可能都会提高价格,而产品的需求不会大幅减少。当产品需求弹性较低时,最低工资的增加可以转嫁给消费者,而不会损失太多的产品需求和就业。有几篇论文分析了价格对最低工资变化的反应(Aaronson,2001;Renkin、Montialoux and Siegenthaler,2020,等等)。

可贸易部门的情况则有所不同。在这里,面临较高最低工资的公司将会与面临较低最低工资的公司竞争。这类公司无法在不损失市场需求的情况下提高价格,因此,我们应该预期可贸易部门的最低工资增加会对就业产生更多的负面影响。最近的研究为这一假设提供了一些支持(Harasztosi and Lindner,2019;Cengiz、Dube、Lindner and Zipperer,2019)。但请注意,很少有领取最低工资的员工在可贸易部门工作。

劳动力市场的不完全竞争。在一个存在搜寻摩擦的模型中,雇主拥有一定的市场势力(Burdett and Mortensen,1998)。雇主可能会利用这种市场势力设定低于完全竞争市场的工资。较少有员工愿意在低于均衡工资的工资水平上工作。在这种垄断环境中,提高最低工资对就业的影响在理论上是不明确的。由于劳动力供给的正向反应,最低工资的小幅提高可以增加就业。

更广泛的研究影响:垄断和企业的工资设定

如上所述,关于最低工资的分析结果与企业在劳动力市场上具有市场势力的观点是一致的。这种市场势力可能来自雇主的规模相对于当地的劳动力市场来说较大,也可能来自布尔德特和莫滕森(Burdett and Mortensen,1998)考虑的那种搜寻摩擦。这里的一个重要含义是,企业的工资设定策略将影响工资的分布,从而影响劳动力市场的不平等。继卡德和克鲁格在20世纪90年代初期的论文得出的发现之后,对垄断模型的重新关注催生了大量文献,旨在研究企业工资设定行为产生的影响。[23]

基于阿波德等人(Abowd、Kramarz and Margolis,1999)的研究,作为量化企业在工资不平等方面重要性的一种方式,有几项研究使用匹配了雇主和雇员的数据,将工资分解为企业部分和个人部分。总体结果(general result)显示,收入方差中的10%~20%可归因于稳定的公司效应。卡德是该领域文献的重要贡献者。卡德、海宁和克莱因(Card、Heining and Kline,2013)表明,1985年至2009年间,德国工资不平等加剧程度的约四分之一可以归因于企业。卡德、卡多索和克莱因(Card、Cardoso and Kline,2016)发现,女性不太可能在支付较高工资溢价的公司工作,她们获得公司支付的工资溢价只有男性的90%。

卡德还提出了一个关于垄断的微观模型,从而对该领域做出了理论贡献,这一模型已成为最近文献中使用的主要模型(Card、Cardoso、Heining and Kline,2018)。基于员工对不同工作的特殊偏好,这一模型引入了产业组织理论的思想。

我们从中学到了什么?

过去30年的研究告诉我们,最低工资对就业的影响并不像劳动力市场教科书中竞争模型描述的那么负面。这是最近基于美国和其他国家的数据进行研究后得到的典型结果。长期就业效应的绝对值往往略大,但最令人信服的研究表明它仍然很小。

对于这一发现,目前研究者已经提供了几种得到了经验支持的解释。一是单位劳动效率的成本不会与最低工资同比例上升。另一个是受最低工资影响最大的本地服务提供商,能够通过提高价格的方式将成本增加转嫁给消费者,而不会造成产品需求的太大损失。第三种解释是企业在劳动力市场上具有垄断势力,由于垄断势力对劳动力需求和劳动力供给的影响相互抵消,因此最低工资对就业的影响是不明确的。

最近的研究开始重新审视劳动力市场垄断的后果和企业在工资不平等(变化)过程中的作用。总而言之,与30年前相比,我们对最低工资如何影响当今的劳动力市场有了更好的了解。

2.2 移民对劳动力市场的影响

在许多国家,移民是一个受到激烈争论的政策问题。人们担忧的是,大量移民流入,即正向的劳动力供给冲击,可能会以降低工资和就业前景的方式降低本地工人在劳动力市场的机会。然而,这种担忧受到诸多因素的影响。首先,本地工人的结果取决于他们的劳动是对新移民劳动的替代还是补充。其次,我们预计劳动力供给侧的变化会引起劳动力需求侧的变化。因此,我们预计公司将进入移民流入较多的地区,并投资于更适合移民的技术。再次,移民流入导致对商品和服务的需求发生变化,这可能会影响本地工人的劳动力市场前景。

因此,我们并不清楚移民究竟会如何影响居住在某个地区的本地工人,尤其是低技能的本地工人。凭经验回答这个问题是有挑战的,因为我们很难说如果没有移民流入,一个地区会发生什么。问题在于,移民很可能会向不断增长的劳动力市场转移,而即使没有移民,在不断增长的市场中本地人的经济结果也可能与其他市场不同。

探究这个问题的早期尝试使用了美国大都市区移民人数的变化,通过在本地水平上进行加总来估计生产函数的参数(Grossman,1982;Borjas,1987)。这些研究的总体结果表明,移民对本地人的影响很小,而对移民本身的影响很大。然而,正如博尔哈斯(Borjas,1987)指出的,这些估计可能是有偏的,因为如上所述,对经济前景而言,当地人和移民的区位选择是内生的。

卡德的早期贡献

卡德的两项研究(Card,1990;Altonji and Card,1991)重振了有关移民对劳动力市场影响的研究。这两项研究都(尽可能地)分析了移民总是迁往蓬勃发展的劳动力市场带来的混杂影响。

卡德(1990)利用了美国历史上一个独特的事件,即所谓的马列尔港偷渡事件(Mariel Boatlift)。1980年4月下旬,菲德尔·卡斯特罗宣布希望移民到美国的古巴人可以从马列尔港离境。1980年5月至9月,约有125 000人离开古巴,其中50%永久定居在了迈阿密。在短短几个月内,迈阿密劳动力市场的劳动力增加了惊人的7%。卡德挑选了四个对照城市,并将马列尔港偷渡事件前后迈阿密劳动力市场的工资和就业变化情况与四个对照城市进行了比较。如果对照城市的选择较为合理,那么马列尔港偷渡事件就提供了一个典型的自然实验。

尽管有大量新移民和非技能移民涌入迈阿密,卡德(1990)发现没有证据表明非古巴裔技能工人的工资率和失业率受到了影响。卡德为移民增加并没有影响工资和失业率这一结论提出了两个解释:首先,有证据表明,由于马列尔港偷渡事件,本土居民和之前可能的移民向迈阿密的迁移减少了;其次,由于过去的移民历史,迈阿密的劳动力市场已经形成了能够吸纳大量非技能移民的产业结构。

马列尔港偷渡事件的结果是否可以推广到其他地区值得讨论。[24]正如卡德自己指出的那样,迈阿密长期以来都有接收古巴移民的历史,而这一事实可能影响了结果。总的来说,移民的区位选择存在相当大的历史依赖性。因此,大多数古巴移民去了迈阿密而不是美国的其他地方,这是有充分理由的。沿着这些思路,阿尔通吉和卡德(Altonji and Card,1991)注意到移民倾向于与以前的移民住在一起(Bartel,1989),因此他们使用之前的定居模式作为移民流入的工具变量,分析了1970—1980年美国120个城市对移民变化的长期(十年)反应。他们的工具变量估计表明,移民对本地工人的工资产生了相当大的负面影响,就业却没有受到影响。

阿尔通吉和卡德(1991)的这篇论文为移民经济学领域留下了两个主要遗产。首先,它设定了最常用的概念框架,这一框架本质上是一个需求侧模型,其中移民的到来被建模为劳动力供给冲击,用于分析移民增加带来的影响。其次,作者用来估计移民影响的方法已在文献中得到了大量的应用。卡德(2001a)进一步完善了这种“偏离份额”(shift-share)方法,他使用每个民族之前的定居模式来预测某个城市和某些职业的整体移民流入。一般而言,这种可以生成工具变量的偏离份额方法在应用微观经济学研究中非常普遍,并且该方法已在移民经济学中得到了反复应用。[25]

后续的证据

卡德(1990)的结论很鲜明,因而引发了针对这一问题的重新分析。继卡德(1990)之后,多项研究检验了大规模移民事件对其他国家的影响。[26]这些研究普遍得出结论,移民对普通本地工人的影响可以忽略不计。达斯特曼等人(Dustmann、Schönberg and Stuhler,2017)分析了多次往返政策的后果,该政策意外地导致捷克工人大量流入德捷边境地区。与许多早期的研究(特别是使用美国数据的研究)相比,他们能够随时间推移跟踪个体。他们发现居住在这些地区的本地工人没有流离失所,移民对本地工人工资的负面影响也很小。然而,由于流入受影响地区的本国居民减少,本地居民的就业率有所下降,这种情况与卡德(1990)观察到的情况类似。

其他研究分析了更寻常的移民事件的影响。这些研究通常会比较受移民流入影响不同的技能群体的结果。因此,他们关注了移民的分配效应,而不是移民如何在整体上影响工资和就业的一般性问题。博尔哈斯(2003)和卡德(2009)报告的证据表明,移民对主要受移民影响的技能群体的工资存在负面影响。[27]

解释与更广泛的研究影响

卡德(1990)得出的令人惊讶的结果,也吸引了大量文献试图解释移民为什么(或为什么不)会影响本地工人在劳动力市场的结果。这里我们简要回顾一下这方面的研究。

移民流入会导致本地居民外流吗?本地居民的迁移这一反应本身就很有趣。但在比较受移民影响不同的地区的工资和就业时,它们也可能成为偏差的来源。如果本地移民反应很大,并且主要是受到负面影响的本地工人有所反应,那么估计可能存在很大的向上偏差(Borjas、Freeman and Katz,1996)。这个问题已经在多篇论文中得到了解决(例如,Card and Di Nardo,2000;Card,2009;Peri and Sparber,2011)。结论是本地居民的反应相当有限,并且其程度太小因而不会产生实质性偏差。

不同群体在多大程度上可以相互替代?这是确定移民的整体影响和影响分布的关键问题。奥塔维亚诺和佩里(Ottaviano and Peri,2012)以及马纳科尔达等人(Manacorda、Manning and Wadsworth,2012)使用时间序列变动来分析移民和本地劳动力在教育和经验领域是否可以替代。他们得出结论,移民和本土劳动力并不是完美的替代品。奥塔维亚诺和佩里(2012)的估计实际上表明,美国本地工人的平均工资会有所增加,而以前的移民则会遭受相当大的工资损失。科尔特斯(Cortes,2008)还发现,受低技能移民流入影响最大的是之前移入的低技能移民工人;而这一流入对低技能本地工人的影响要小得多(另见Lalonde and Topel,1991)。

佩里和斯帕贝尔(Peri and Sparber,2009)开发了一个框架,以解释为什么低技能的本地劳动力和移民是不完美的替代品。基本的论点是,本地工人和移民拥有不同的技能,尤其是语言技能,因此也流入了不同的行业:本地工人更多进入了需要沟通技巧的行业,而移民工人更多进入了需要体力的行业。他们还提供了与该理论一致的证据:在经历了(或预期)大量低技能移民流入的当地劳动力市场中,更多低技能本地工人选择了从事需要沟通技巧的职业。福厄兹和佩里(Foged and Peri,2015)使用丹麦的数据表明,为了应对移民的涌入,受教育程度较低的当地人转向了更复杂、更少体力劳动的职业。部分由于这种调整,移民对本地居民工资和就业的影响为零或为正。

达斯特曼等人(Dustmann、Frattini and Preston,2013)估计了移民对全部本地工人工资分布的影响。他们记录了这一分布在英国的显著差异:工资分布最低的十分之一本地工人受到了负面影响,而剩下的工人都受到了正面影响。最终的结果是,普通英国本地人会从移民中获益。

移民多大程度上影响了技术变革?移民引起了劳动力供给结构的变化,从而使劳动力需求发生调整,这是移民的潜在影响之一。刘易斯(Lewis,2011)发现了这种调整的证据;他特别指出,低技能移民增加较多的地区,对自动化机械的投资较少。同样,佩里(2012)报告的证据表明,从长远看,移民提高了全要素生产率并减少了生产技术的技能偏向。最后,达斯特曼和格利茨(Dustmann and Glitz,2015)表明,企业开始使用因移民而变得更加丰富的技能群体,而无需对工资进行调整。这一结果与需求侧的调整(例如,技术投资)以响应供给侧的变化是一致的。

我们从中学到了什么?

我们从卡德(1990)之后30年的研究中了解到了什么?对于那些最有可能与新移民互为替代的本地工人,移民带来的工资和就业影响程度仍有待讨论。不过,目前文献已经在一些结论上达成了共识。首先,在劳动力市场中,先前移民的前景受到的影响最大;事实上,许多本地居民似乎还会受益于新移民。其次,本地工人似乎可以通过进入需要沟通技巧的行业来避免负面后果,而这些职业来自移民的竞争较少。再次,技术投资与移民流入相互适应,这也减少了对受移民影响最大的群体的不利影响。

2.3 教育投资的效应

改善劳动力市场结果的一种潜在途径是教育,对弱势群体而言尤为如此。从长远看,将资源投资给学校,以提供更好的教育机会,似乎可以提高学生的学习成绩及其在劳动力市场的结果。然而,在1990年之前,研究学习成绩与投入资源之间关系的实证文献表明,这种关系很弱。科尔曼(Coleman,1966)的报告或许是最好的例证。该报告(除其他外)使用回归来分析那些可以量化,同时又可能因为学校的投入变化而变化的成绩,通过分析这些成绩变动的比例,他们认为学校投入和成绩之间几乎没有关联:除了家庭背景的重要性之外,学校对解释变量的变化几乎没有作用。哈努谢克(Hanushek,1986,2003)研究了科尔曼报告之后的大量文献,得出的结论是学习成绩和学校投入的资源之间几乎不相关。[28]

可以说,之前的文献应该被视为描述性的。回答有关学校资源的因果影响这一问题需要一种经验策略,该策略可以处理学生、学校或社区特征等各种混杂因素的干扰。例如,通常会存在补偿性教育资源分配,这样一来表现不佳的学生就会被安排在小班里。如果这种补偿性分配很大,那么学生成绩和资源之间的相关性可能就是负的,即使真正的因果影响为正。

卡德的早期贡献

卡德和克鲁格在20世纪90年代初期合著了两篇论文,他们研究了学校质量对学生在劳动力市场结果的总体重要性。两篇论文都使用了学校资源大投资时期(20世纪30年代至50年代,特别是在美国南部)学校质量的合理外生变化。[29]

与之前的大部分文献相比,卡德和克鲁格分析了学校质量如何影响学生在劳动力市场的结果而非考试成绩。这是一项重大创新,因为学校质量可能会在多方面对个体的能力产生影响,而不只是以考试成绩衡量的狭义学生能力。他们还清楚地阐述了他们的实证研究设计,打破了当时已有的文献范式。

卡德和克鲁格(1992a)想知道,学校质量是否会影响一年学校教育的收入回报。他们的想法是,更好的学校可以提高给定教育程度的劳动力的市场回报。学校质量和劳动力市场的回报是在州层面衡量的。然而,各州学校资源的差异可能反映了人口和劳动力市场特征的差异,因此,需要一种能够区分这些影响的策略。卡德和克鲁格(1992a)通过关注州际搬家者,即通过比较居住在同一州但在不同州长大的个体解决了这一问题。[30]因此,他们想要分析的是,对于那些在教育支出更高的州长大的个体,受教育程度对收入的影响是否更高。为了说明他们的主要思想,我们不妨以一组在亚拉巴马州和艾奥瓦州长大,但在观测数据时都居住在加利福尼亚州的人(同时出生)为例。他们都选择搬到加利福尼亚州,在这个意义上他们是相似的。比较亚拉巴马州和艾奥瓦州就可以得到分别在两地长大的人在学校教育回报上的差异。[31]

在实践中,卡德和克鲁格(1992a)通过分别估计居住州、出生州和出生组别中受教育程度的回报率,实施了这种“迁徙者设计”,而后检验了给定出生组别下,学校教育回报率是否与成长过程所在的州相关。在第二步中,他们检验了出生州(b)和组别(c)之间回报率的变化是否与学校质量的不同衡量标准有关。使用20世纪20年代、30年代和40年代出生的白人男性的数据,他们进行了固定效应回归:

卡德和克鲁格考虑了学校质量的三个衡量标准:生师比、教师相对工资和学期长度。他们发现,在生师比降低的州长大的人,比在生师比不变或升高的州长大的人,可以系统地获得更高的学校教育回报率。因此,他们的结论是学校质量对学生的劳动力市场结果确实很重要。[32]

美国南部的生师比下降幅度特别大:20世纪初,一个州内黑人学校的质量与白人学校的质量大不相同。不过黑人学生的情况随后有所改善,在1920年至1950年这段时间以及南部各州内这一情况更为显著。卡德和克鲁格(1992b)想了解学校质量的这种相对改善是否影响了黑人和白人男性获得的教育回报率。他们使用搬迁到北方各州的个体的有关信息,论证了教育回报率确实随着学校质量的提高而增加。由于黑人男性经历了更大程度的学校质量改善,学校质量的变化帮助缩小了1960—1980年黑人与白人的收入差距。

关于教育资源的额外证据

卡德和克鲁格这两篇论文的结论令学术界感到惊讶,并重新激发了人们对教育产出的兴趣,由此引发了关于学校质量和学校资源对学生的学习成绩和劳动力市场结果是否重要的讨论。关于这个问题的不同观点请参阅《金钱重要吗?》(Does Money Matters?,Burtless,1996)。

后来基于准实验研究设计的研究工作发现了与卡德和克鲁格最初研究相一致的证据。来自美国的证据基于法院授权的学校财务改革带来的变化,早期的研究有霍克斯比(Hoxby,2001)以及卡德和潘恩(Card and Payne,2002)。杰克逊等人(Jackson、Johnson and Persico,2016)则论证了学校质量和学校资源对受教育程度和工资的实质性影响[33];此外,对来自低收入家庭的儿童来说,这一效应要大得多。同样,罗斯坦和尚岑巴赫(Rothstein and Schanzen bach,2021)发现了学校教育回报率提高的证据,特别是黑人学生。

广泛的义务教育改革也提供了证据。在实践中,这些改革意味着资源主要会分配给贫困家庭的学生,以帮助他们改善受教育机会并提高教学质量。来自北欧国家的证据表明,对父母受教育程度较低的人而言,其受教育程度和收入都有所提高(参见Meghir and Palme,2005;Kerr、Pekkarinen and Uusitalo,2009;Aakvik、Salvanes and Vaage,2010)。

更广泛的研究影响:解释学校教育回报率的证据

一般来说,学校教育回报率是评估教育扩张的关键参数。[34]第1节中介绍的安格里斯特和克鲁格(1991)的论文可以被认为是这一领域里程碑式的研究。另一个早期贡献是卡德(1995a),他使用了个人成长环境附近是否有大学作为受教育程度的工具变量。

卡德(1995b,1999,2001b)总结了有关学校教育回报的文献。早期准实验文献的一个显著特征是在使用数据的情况下,工具变量估计值往往大于相应的OLS估计值。

更重要的是,卡德还从贝克尔(Becker,1967)的最优教育选择模型的视角来解释文献。根据该模型,最优投资选择将教育回报率等同于借贷成本(贴现率)。孩子如果来自借贷成本更高的家庭,就会选择较少的受教育年数,而更有能力的孩子,在这一模型中有着更高的教育回报率,因此他们会选择投资更多的人力资本。该模型意味着学校教育的回报率因受教育程度的分布而异。在能力和贴现率不相关的(强)假设下,那些位于分布最底部的人,其教育边际回报率更高,因为他们的选择受到高贴现率的限制。[35]

因此,卡德讨论的模型具有教育回报的异质性。继因本斯和安格里斯特(1994,1995)之后,卡德指出,工具变量确定了受该工具变量较强影响的群体的受教育回报,此外,文献中使用的许多工具往往会影响那些在受教育程度的分布中位于较底端的个体。一个例子是安格里斯特和克鲁格(1991)使用出生的季度作为工具变量,它主要影响那些离开学校的可能性很高的人。另一个例子是卡德(1995a)使用的距离工具变量。这个工具对富裕家庭的孩子来说可能不太相关,因为无论他们在哪里长大,他们都会选择上大学。

如果一个特定的自然实验可能主要影响受教育程度低的人,并且其主要原因是他们面临更高的平均贴现率,对教育回报的工具变量估计值就会大于实验人群的平均回报。在这种情况下,旨在提高弱势群体受教育程度的政策举措可能会带来可观的工资回报。

我们从中学到了什么?

过去30年的研究得出的总体结论是,学校资源似乎对工业化国家的劳动力市场结果很重要。[36]杰克逊(2020)最近研究了来自美国的证据,有力地支持了教育资源会产生影响的结论。杰克逊谨慎地指出,这并不意味着所有类型的支出增加在所有情况下都会改善学习成绩和劳动力市场结果。不过平均而言,学校财务改革往往会降低生师比、增加教师工资并延长学年(Jackson、Johnson and Persico,2016)。这些方面的支出最有可能提高学校质量和学校教育的回报(Card and Krueger,1992a)。

对于不具有优势背景的学生来说,学校资源的投入对就读成绩的影响往往更大,这表明与来自优势背景的学生相比,他们在学校选择方面受到了更大的限制。学校支出的增加是否会减少工资和收入不平等是一个更复杂的问题。然而,准实验文献均认同教育投资对弱势群体的收入影响更大。

3.使用工具变量识别因果干预效应

利用自然实验的最初研究浪潮提出了新的概念上的重要问题。例如上文提到的,对学校教育回报的工具变量估计通常大于相应的OLS估计。为了使这些发现合理化,我们很自然地会转向这样一个分析框架,即实验人群的学校教育回报是异质的;在这种情况下,估计中使用的外部变化来源就变得重要了。

安格里斯特(1990)的研究也指出了关注异质性的重要性。他利用越南战争时期的抽签服兵役来估计服兵役对之后收入的影响。在20世纪70年代初,征兵资格是通过随机抽取出生日期来确定的。[37]安格里斯特因此将征兵资格作为在越南战争中服役的工具变量。然而,在越南服役的大多数人都是志愿参军者,无论他们的抽签号码如何,他们都会选择参军。而抽签只会影响不愿参军的个体。因此,安格里斯特的估计也许不能代表那些在越南战争中志愿参军的人。

在大多数情况下,人们对干预的反应可能是不同的。当干预效应因人而异且人们可以自由选择时,他们很可能不会完全遵从(自然)实验的安排。在越南战争期间志愿服兵役这一事件就是不完全遵从的例子,因为这些人无论是否符合征兵资格都始终会报名参军。相反,一些符合征兵资格的人因健康原因或仍在上学而被豁免。一般来说,不完全遵从准实验和实验变动是普遍存在的现象。

干预的异质性和不完全遵从相结合,给因果分析带来了问题。在安格里斯特和因本斯之前,研究人员探索了识别总实验人群或受干预人群的平均干预效应所需的条件(Chamberlain,1986;Heckman,1990);这些研究的普遍结论是,这些条件往往很严格。另一种方法是限制这些效应(Robins,1989;Manski,1990;Balke and Pearl,1997);不幸的是,这样的限制往往太宽,以至于无法在实际操作中提供有价值的信息。

识别受干预者的平均干预效应需要严格的假设,为了说明这一点,不妨考虑如下情况:受干预资格(treatment eligibility)是随机分配的,并且对所要研究的结果没有直接影响,但由于不完全遵从,受干预状态(treatment status)和受干预资格并不总是保持一致。一般来说,个体的受干预状态可能取决于干预效应,因此,必须援引额外的假设。[38]

在识别受干预者的平均因果效应时,一个必要的假设是个体不知道所要采取的干预会对他们产生什么影响。在这种情况下,是否接受干预的决定不能基于个体接受干预带来的回报。因此,可以直接使用工具变量法来估计受干预者的平均因果效应(例如Heckman,1997)。然而,在许多现实的情形中,人们至少会部分地意识到干预可能带来的后果,然后自然地对这一后果做出反应。

另一种可能性是单方面的不遵从,即对于没有资格接受干预的人,他们实际接受干预的概率为零。如果这适用于整个实验人群,那么受干预者的平均因果效应就是可以估计的(Bloom,1984)。[39]如果在一个可观测到的实验人群子集中存在单方面的不遵从,那么研究者就可以估计该特定组中受干预者的平均效应。然而,在许多情况下,单方面不遵从的假设可能会被违反。[40]

因本斯和安格里斯特(1994)使用不同的方式来干预异质性和不遵从带来的难题。具体来说,他们退后一步思考:如果不给实验对象无法直接观测到的行为施加额外限制,那么研究者从随机或自然实验中可以得到什么,以及无法得到什么?

在本节的其余部分,我们将介绍安格里斯特和因本斯的主要成果,以及他们用来推导这些成果的框架。该框架将工具变量分析整合到因果推断的潜在结果框架中。由此产生的框架使识别假设的性质变得透明,并使研究人员可以评估他们的经验设计对偏离这些假设的敏感性。之后,我们将阐释这一论断。我们还讨论了意向干预分析的含义,这是医学领域分析不完全遵从实验所用的规范。

本节重点介绍了安格里斯特和因本斯对方法论的创新,但实际上他们的贡献远远超出了本文涵盖的研究范围。安格里斯特是一位应用劳动经济学家,他曾在许多领域开展过研究,但他在教育经济学方面的工作可能最为广泛。[41]除了上文已经提到的研究之外,他还研究了学生表现如何受到以下因素的影响:班级规模(Angrist and Lavy,1999),参加特许学校(et al.,2011),以及私立学校教育券(Angrist et al.,2002)等。因本斯是一位计量经济学家,他的其他研究工作主要涉及评估方法,包括匹配方法(Abadie and Imbens,2006;Hirano、Imbens and Ridder,2003)、断点回归估计(Imbens and Kalyanaraman,2012),以及双重差分设计的改进(Athe and Imbens,2006)等研究工作。

3.1 识别并解释干预效应的框架

因本斯和安格里斯特(1994)阐述的方法论框架建立在内曼(1923)引入的潜在结果框架之上,并以鲁宾(1974)提出的随机实验为背景。这种框架的核心是分配机制,即确定哪些个体接受了哪些干预的过程,基于这一过程,研究者可以发现哪些潜在结果可以被观测到,以及哪些潜在结果是缺失的。与假设随机分配的内曼,以及将分配与倾向性得分(propensity score)联系起来的鲁宾不同,安格里斯特和因本斯将分配与工具变量的存在联系了起来[42]新出现的方法以这种方式将经济学中发明的工具变量框架与统计学中为因果推断开发的潜在结果框架相结合。[43]工具变量可能是物理随机化(phsyi cal randomization)的结果,就像在随机对照实验中一样。除此之外,外生变动的来源也可能是自然实验。因此,安格里斯特和因本斯提供了一个适用于准实验和实验研究的一般框架。

接下来我们概述安格里斯特和因本斯开发的这个框架。[44]假设我们感兴趣的是一个二元干预。为具体起见,以第1节中读完高中与否对收入的影响为例。在这里,Yi表示个体i的收入,Di=1表示读完了高中的人,而Di=0表示未读完高中的人。对每一个人,都有两种潜在结果:Yi(1)和Yi(0)。单个人的因果效应可以定义为两个潜在结果之间的差异:Yi(1)-Yi(0)。正如第1节指出的,一个人不能同时接受干预又不接受干预,即个人因果效应无法被识别。

估计目标(estimand)通常是个人因果效应的平均值。这些目标中最雄心勃勃的就是全部研究人群的平均干预效应(ATE),ATE=E[Yi(1)-Yi(0)]。但这一平均干预效应只有在严格假设存在异质性和不完全遵从时才能被识别出来。

正如第1节强调的,我们需要一种工具变量来估计读完高中对收入的影响。因此,让我们详细说明一下安格里斯特和克鲁格(1991)使用的出生日期工具变量。回想一下,在美国,出生日期与高中毕业时间相关,因为学校每年只会开学一次,但你可以在特定的年龄离开学校,比如18岁生日那一天。[45]现在,假设我们比较两个相隔一天出生的人:一个出生在12月31日,另一个则出生在1月1日。两个孩子会在同一天入学,比如9月1日。在学校开学时,12月出生的孩子只有5岁零8个月,但1月份出生的孩子已经6岁零8个月大了。由于他们被允许在18岁时退学,因此只有1月份出生的孩子可以在高中毕业前合法退学。也就是说,由于制度原因,出生日期的随机变化会导致受教育程度的变动,而这些原因似乎与学校教育的其他决定因素无关。因此,人们可以使用入学截止日期之前出生这一指标作为工具变量,不妨用Z来表示,其中Z=1代表7—12月出生的人,而Z=0代表1—6月出生的人。我们预计7—12月出生的人比1—6月出生的人读完高中的可能性更高。

因为干预指标(读完高中与否)的内生性,所以从潜在结果的角度考虑这一变量是有用的。基于二元工具变量Zi,每个人都有两种潜在的干预方式:Di(0)和Di(1),在没有进一步假设的情况下,现在共有四种潜在结果Yiz,d),其中z=0,1;d=0,1。

最简关键假设

安格里斯特和因本斯通过思考如下问题开始他们的分析:有效的工具变量应该满足哪些假设?首先,工具变量应该和随机分配的一样好。因此,该工具变量应该与所有潜在结果无关,形式上有:

假设1(随机分配):[{Yiz,d)∀d,z},Di(1),Di(0)]⊥Zi

在我们刚刚的示例中,这对应于假设潜在结果与个人的出生日期无关。

如果工具变量是随机分配的,那么就可以一致地估计出所谓的“简化形式”,即所要关注的结果与工具变量之间的关系,这对应于随机对照实验中对意向干预效应的估计。换句话说,YZ的回归可以识别出工具变量对结果的因果效应:

其中最后一步来自随机分配。在我们的例子中E[Yi(1,Di(1))]-E[Yi(0,Di(0))]就是出生日期晚于开学时间的人相对于出生日期早于开学时间人在收入方面的因果效应。

类似的,我们要研究的干预和工具变量之间的关系(即第一阶段)如下:

在这里,E[Di(1)]-E[Di(0)]就是出生日期晚于开学日期的人在完成高中学业可能性方面的因果效应。

如果想要工具变量是有效的,那么工具变量必须具有相关性,形式上有:

假设2(相关性):E[Di(1)]-E[Di(0)]≠0

在出生日期的例子中,这一假设要求高中辍学的概率与出生日期早晚之间存在很强的相关性。

由于Z并不等于D,识别到的干预效应(完成高中学业对收入的影响)还需要额外的假设。特别是,它要求工具变量只能以影响干预的方式影响最终结果。这是一个排除性限制,可正式表述如下:

假设3(排除性):Yi(1,d=Yi(0,d=Yid),d= 0,1

假设1和假设3的组合意味着该工具变量外生于传统线性回归中的误差项。通过在潜在结果框架中构建工具变量分析,很明显外生性假设可以细分为两个独立的假设,即随机化和排除性限制。安格里斯特、因本斯和鲁宾(1996)特别清楚地说明了这一区别。这一点在概念上很重要,因为这是两个独立的假设,值得单独关注。违反它们的原因可能有所不同,而且违反它们也可能产生不同的结果。回到具体的例子中来。假设我们关注接近入学截止日期出生的人,比如出生在12月最后一周的人和出生在1月第一周的人。由于出生时间相隔一两周基本上是随机的,因此该工具变量是随机分配的。但它满足排除性了吗?这并不明显,因为该工具变量还会导致入学年龄发生变化。如果入学年龄对收入很重要,那么就会违反排除性限制。

在排除性限制下,简化式系数或意向干预系数可以被简化为:

由于Di(1)-Di(0)只可能有三个取值:-1,0,1,等式右边的部分可以被进一步分解为:

这个表达式清楚地表明,对工具变量没有反应的人也就是那些(Di(1)-Di(0))=0的人,他们对识别因果效应没有贡献。直观地说,我们无法估计不因工具变量改变自身行为的实验人群的因果效应,因为没有针对该子集的对照组。虽然这一论点简单明了,但非常重要。

就目前而言,对简化式关系的解释是有问题的。事实上,即使对所有人而言,DY的潜在因果效应都是正的,简化式效应(与假设3下的工具变量估计值成正比)也可能出现负值。问题出现在当Z从0切换到1时,那些由未接受干预转变为接受干预的人(即“遵从者”)的干预效应可以被那些由接受干预转变为不接受干预的人(即“拒绝者”)的干预效应所抵消。

我们怎样才能更进一步呢?一种方法是假设实验人群中不存在干预异质性,但这无异于直接假设刚刚发现的问题不存在。另一种限制较少的方法是引入“单调性”假设。单调性是因本斯和安格里斯特(1994)引入工具变量分析的一个假设,它假设所有个体都会受到同一方向的影响,或者根本不受工具变量的影响。[46]

假设4(单调性):Di(1)≥Di(0)(反之亦可)

Di(1)≥Di(0)意味着Pr[(Di(1)-Di(0))=-1]=0,如此一来,工具变量对干预变量的因果效应就等于EDi(1)-Di(0))=Pr[(Di(1)-Di(0))=1]。

识别

单调性假设与其他假设一起成立时,意味着意向干预效应等于:

左侧是工具变量对研究结果的因果效应。右侧的第一个组成部分是工具变量对干预变量的因果效应。两者之比即为工具变量的估计目标。

于是,在假设1到假设4下,工具变量的估计目标可以写为如下形式:

这一估计目标识别了工具变量取值变化时受干预状态也随之变化的群组的平均因果效应。安格里斯特和因本斯将这种因果效应称为局部平均干预效应。安格里斯特、因本斯和鲁宾(1996)把根据工具变量的不同取值改变自己行为的群组称为遵从者;因此,局部平均干预效应有时也被称为遵从者的平均因果效应(complier average causal effect,CACE)。

在我们的示例中,遵从者群组对应于那些出生日期先于或后于入学截止日期会影响其读完高中概率的人。那些无论出生日期如何,总是能读完高中的群体被称为“总是接受者”;那些无论出生日期如何,总是会辍学的群体被称为“从不接受者”,在入学截止日期前出生而选择辍学的群体被称为“拒绝者”。单调性假设排除了拒绝者的存在。

3.2 扩展与推广

安格里斯特和因本斯的研究工作涵盖了比第3.1节更一般的情况。在本节一开始,我们会回顾这些扩展中的一部分。然后,我们将讨论可以采取哪些措施来分析局部平均干预效应的估计值是否可以一般化到比遵从者群组更广泛的人群。

扩展

因本斯和安格里斯特(1994)不仅考虑了二元工具变量。实际上他们的研究表明,当工具变量是多值离散变量时,工具变量估计目标就是局部平均干预效应的加权平均值。权重均为正数,总和为1。他们还表明,两阶段最小二乘(2SLS)估计量(也是最有效的工具变量估计目标)一致地估计了加权平均的局部平均干预效应,因为这些工具变量对接受干预的概率具有单调影响。两阶段最小二乘估计量是渐近正态的,其方差可以使用稳健估计量进行估计。

安格里斯特和因本斯(1995)对干预变量是多值变量的情况(例如干预变量为受教育年限)进行了重要的一般化。这增加了一层复杂性,因为对每个给定的人来说,现在有许多因果效应,比如学校教育从11年增加到12年的因果效应,以及从12年增加到13年的因果效应等。从概念上讲,潜在结果与干预变量的取值实际上一样多。

假设我们有一个单独的二元工具变量可供使用,并且我们想要估计学校教育的回报。安格里斯特和因本斯(1995)表明工具变量估计得到的是个人因果反应的加权平均值。个人因果反应是指在受教育程度分布的特定节点上,遵从者之间的潜在结果差异。权重反映了个体在受教育程度分布的不同节点上受工具变量影响的程度,它们都是正数并且总和为1。

迪纳尔多和李(DiNardo and Lee,2011)表明,可以将单调性假设放宽到“概率单调性”,并且在这一放宽假设下仍然可以识别出明确的因果干预效应。概率单调性要求所有随机接受干预的人接受干预的概率都要有所增加。这里的工具变量估计目标可以解释为个人因果效应的加权平均值,其中权重反映了工具变量对每个人或每类人接受干预的概率有何影响。这一扩展很有用,因为它意味着工具变量估计可以一般化到遵从者群体之外。

最后,因本斯和鲁宾(1997a)提出了一个框架,用于对基本假设进行敏感性分析。特别是,他们保留了随机化和相关性假设,并研究了当排除性限制和单调性假设不成立时,因果推断会发生什么。为了进行分析,他们不得不援引替代假设。[47]这种敏感性分析主要是对排除性限制感兴趣,因为这一限制在许多实际应用中都是一个问题。

对局部平均干预效应估计的一般化

在最少的一组假设下,局部平均干预效应可以被识别出来。因此,对于遵从该工具变量但未被观测到的群体,局部平均干预效应估计是内部有效的。[48]在没有单方面不遵从的情况下,受干预者群体和遵从者群体是相同的,这意味着对一组遵从者(由一个工具变量定义)的影响在同一数据分析中不需要一般化到另一个遵从者群体(由另一个工具变量定义)。有许多分析可以用来阐明特定研究的一般化问题。

第一,即使无法观测到遵从者的身份,也可以直接从数据中估计遵从者的比例[这就是第一阶段的系数,见等式(2)]以及遵从者相对于受干预人数的比例;也可以根据观测到的协变量来描述遵从者群体(Abadie,2003;Angrist,2004)。这些描述阐明了特定的遵从者与人们希望做出推断的总实验人群之间的关系:例如,如果政策目标是低收入个体,而低收入个体在遵从者中的比例很高,那么局部平均干预效应就应该与政策目标高度相关。

第二,因本斯和鲁宾(1997b)表明,在假设1至假设4下,研究者已经可以识别出遵从者的潜在结果分布;因此,人们可以了解到遵从者之间的效应异质性[49]第三,通过使用一种以上的工具变量,人们可以检验实验人群对工具变量的异质性反应程度(Angrist、Lavy and Schlosser,2010)。如果异质性不是很大,估计结果就可以一般化到更广泛的总体。

第四种选择是使用辅助假设填补数据中的空白。例如,赫克曼等人(Heckman、Tobias and Vytlacil,2001,2003)和安格里斯特(2004)使用参数的潜在指数模型来识别和比较不同的因果效应,例如总实验人群的平均因果效应、干预组内的平均因果效应,以及遵从者组内的平均因果效应。宾奇等人(Binch、Mogstad and Wiswall,2017)提出了一种边际干预效应的结构以超越局部平均干预效应。张伯伦(2010)开发了一种用于外推的贝叶斯半参数程序,该程序依赖于第一阶段函数的结果分布变化模型。

3.3 示例

安格里斯特和因本斯提供的框架展示了何时以及如何解释工具变量估计量识别出的效应。通过潜在结果分析,他们还提供了一个框架,用于验证和讨论经验设计中特定假设的合理性。在本节中,我们通过讨论一些具体的研究来说明这一点。

越南战争时期服兵役的影响

让我们回到在军队服役如何影响之后的收入这一问题(Angrist,1990)。在越南战争期间,大量美国男性受到了征兵的影响。在1950—1952年出生的男性中,大约38%的人符合征兵资格。这方面的一个重要问题是,战时的经验是否在劳动力市场中依旧有用。如果战时经验的作用有限,那么应该向退伍军人提供多少补偿?

出于显而易见的原因,在劳动力市场中,针对退伍军人身份的直接回归结果很可能会产生一个关于退伍军人身份因果效应的误导性答案,因为全部服兵役人群中,最终服兵役的子集可能是根据一系列(可观测与不可观测的)特征选择出来的。安格里斯特(1990)使用来自随机抽签的变化估计了退伍军人身份对收入的影响。更准确地说,他利用征兵资格作为在越南战争期间服役的工具变量。安格里斯特、因本斯和鲁宾(1996)使用类似方法分析了服兵役对死亡率的影响。[50]

在军队服役的概率随着抽签号码的上升而下降。单调性假设要求,如果一个人抽到号码k时选择了服兵役,那么对于任意的l<k,该人在号码为l时也会选择服兵役。这是合理的,因此,可以合理地假设在样本中没有或很少存在拒绝者。

排除性限制要求服兵役和不服兵役的潜在收入独立于抽签号码。如果抽签号码可以通过除退伍军人身份以外的其他形式与收入相关,排除性限制就会被违反。无论抽签号码是多少,总是接受者都会在军队中服役。对于这样的人,可以合理地假设抽签号码对其收入没有直接影响。另一方面,从不接受者永远不会在军队中服役,无论他们的抽签号码是多少。在这里,排除性限制可能有问题。如果应征者通过留在学校读书或移居国外等方式逃避服兵役,这种行为可能会对收入产生直接影响,从而违反了排除性限制(对排除性限制的更广泛讨论,可参见Angrist、Imbens and Rubin,1996)。

法官宽大干预设计

研究者使用基于法官、案件工作者等人的酌情决定作为工具变量的热情日渐高涨,我们称之为“法官宽大干预”设计。鉴于不同决策者的宽容度不同,并且个体会随机地分配到某位决策者,宽容度可用于工具变量设计以研究决策对研究结果的影响。

克林(Kling,2006)提供了一个经典示例,他研究了监禁时间对后续劳动力市场结果的影响。这项研究的问题在于,刑期较长的人可能不同于刑期较短的人,而这对未来的劳动收入很重要。克林注意到了基于案件提交日期和地点这一条件,审理案件的法官是随机分配的这一事实。这可能很有用,因为有些法官在量刑时似乎比其他法官更严厉。

另一个例子来自达尔等人(Dahl、Kostøl and Mogstad,2014),他们使用挪威的数据研究了父母参加残疾保险会如何影响其子女后续的福利参与情况。在这一研究中,最初被拒绝申请残疾保险的申请人会面对随机分配的法官。另一个例子是多比等人(Dobbie、Goldin and Yang,2018),他们使用(准)随机分配的保释法官的拘留倾向来估计审前拘留对劳动力市场后续结果的因果效应。

在这些类型的研究中,排除性限制可能是一个问题,如果决策者和个体之间存在某种互动的话更是如此。当决策者和正在裁决的案件之间没有互动时,排除性限制似乎更容易证明。然而,单调性假设可能是一个更大的问题。正如多比等人(2018,第222页)指出的,单调性“要求被严格法官释放的人一定会被更宽大的法官释放,被宽大法官拘留的人一定会被更严格的法官拘留”。问题在于,法官可能不仅在宽大干预方面有所不同,而且在偏好方面也有所不同:法庭审理的案件涉及许多方面,有些法官对某些类型的被告可能比对其他类型的被告更严厉。

3.4 局部平均干预效应框架在经济学之外的应用

安格里斯特和因本斯开发的局部平均干预效应框架如今被广泛应用于经济学和其他社会科学。[51]事实上它也越来越多地用于流行病学和医学等学科。作为意向干预分析的补充,本节会简要讨论工具变量方法(即局部平均干预效应的估计方法)在这些领域,尤其是医学研究领域的应用。如需更全面地评估医学和流行病学中估计平均干预效应的方法,包括局部平均干预效应(或平均遵从因果效应,这是医学文献中更常见的术语),请参阅利特尔和鲁宾(Little and Rubin 2000)以及赫尔南和罗宾斯(2017)的文章。

对医疗干预因果效应的分析通常会通过解释性实验和实际实验来完成。解释性实验可以用来分析干预的有效性,即在理想或受控条件下干预的影响。实际实验则估计了干预的现实有效性,即干预在现实场景或正常临床条件下的影响。在实际实验中,对指定干预顺序的不完全遵从很常见。[52]因此,传统方法一直专注于意向干预分析(参见Shrier et al.,2014;Dodd、White and Williamson,2012)。如上所述,意向干预估计衡量的是干预分配的因果效应,而不是实际干预的因果效应。

专注于意向干预分析通常有两个理由。首先,意向干预效应可能与实际政策最相关,因为人们通常不能强迫他人接受干预。其次,在排除性限制下,意向干预效应是一种稀释的干预效应,因此它可能是评估新疗法的一种保守策略。然而,这些理由都不一定成立(例如,相关讨论可参见Hernán and Hernandez-Diaz,2012)。

意向干预分析的理由不一定成立的一种情况是将新疗法与现有疗法进行比较,并且不同疗法的遵从率也有所不同。如此一来,即使两种疗法的疗效完全相同,意向干预估计也可能显示出一种疗法比另一种疗法更有效。而这仅仅是因为实验对象对某种疗法有更高的遵从度。

意向干预分析可能有问题的另一种情况是在分析干预可能产生的负面效果时。稀释真正的干预效果可能会使不安全的干预看起来是安全的。出于这个原因,良好临床实践国际指南建议应根据干预的实际接受情况来分析负面效果(ICHGCP,1999)。然而,如上所述,将接受干预的患者与未接受干预的患者进行比较通常会产生对干预效果的有偏估计。

多德等人(Dodd、White and Williamson,2012)整理了2008年发表在《新英格兰医学杂志》和《美国医学会杂志》上的98项随机对照实验,并回顾了其中不遵从干预方案的情况。他们发现,除了意向干预分析外,98项实验中的49项包含了“接受干预”(as-treated)分析或“遵从干预方案”(preprotocol)分析,这些分析旨在解决不遵从引起的问题。接受干预分析将接受干预的个体与未接受干预的个体进行比较。相反,遵从干预方案分析则会排除不遵从干预方案的个体。同样,这两种方法都提供了对干预效果的有偏估计。

如果能得到有关干预接受情况的信息(通常都是这种情况),研究者就可以估计出含有明确解释的局部平均干预效应,它反映了干预对遵从者的影响。基于这个原因,一些学者认为局部平均干预效应应该作为主要的因果估计目标。[53]

3.5 我们从中学到了什么?

因果关系是所有科学的核心。然而,经济学中的实验并不容易开展,对于大多数要研究的问题,我们必须依赖观测性数据。通过关注干预分配(assignment to treatment),因本斯和安格里斯特(1994)将哈维默(1944)的识别设想与准实验和实验变动(experiment variation)联系起来。他们表明,即使存在异质性和不完全遵从,工具变量也可以在通常具有经验合理性的最少假设下识别因果干预效应。识别的因果效应是遵从者的平均因果效应,即因工具变量的取值变化而改变行为的总实验人群子集的因果效应。

在得出关键结果的同时,安格里斯特和因本斯还建立了一个总体框架,使识别假设的性质更加透明,并允许研究人员评估其经验设计对偏离这些假设的敏感性。这些优势使该框架成为准实验和实验研究的主导框架。

此外,安格里斯特和因本斯提供的基本框架也被应用于研究以如下方法识别因果干预效应所需的条件:例如断点回归设计(Hahn、Todd and van der Klaauw,2001)和双重差分设计(de Chaisemartin and D'Haultfoeuille,2020)等现行因果推断法,或拐点回归设计(Card、Lee、Pei and Weber,2015)以及合成控制法(Abadie、Diamond and Hainemuller,2010)等新方法。

4基于设计的研究方法:后续讨论

基于设计的研究方法改变了经济学以及其他学科的应用研究。和所有的“革命”一样,这种方法的优点和缺点都得到了大量的科学讨论。在这里,我们罗列了这些讨论中提出的若干议题。

4.1 以牺牲外部有效性为代价的内部有效性?

一种担忧是,对可信性识别的强调导致这一方法走上了另一个极端。也许其重点过多地放在了关注内部有效性而非外部有效性上。

作为对此类批评(例如Deaton,2010;Heckman and Uruzua,2010)的回应,因本斯(2010)论证了,研究设计这一问题不同于估计和解释中的理论运用。此外,他指出,分开考虑如下两类假设是有益的:一类是识别总实验人群的因果效应所需的假设,另一类是将内部有效性估计一般化到其他人群所需的假设。迪纳尔多和李(2011)也提出了类似的观点。

事实上,准实验变动和结构模型可以有效地相互补充。例如,卡德和希斯洛普(Card and Hyslop,2005)使用实验变动来帮助识别福利参与的结构模型。研究者也可以使用基于设计的估计来验证结构模型,正如布伦德尔(Blundell,2013)所做的那样。与此相关的是,克莱因和沃尔特斯(2019)表明局部平均干预效应的工具变量估计和选择校正类估计(如Heckman,1979)在数值上是相等的。换句话说,在识别数据中的干预效应时,这两种估计量选择哪一种并不重要。克莱因和沃尔特斯展示了这种等价性如何构成了验证结构模型(这些模型在识别总实验人群的平均因果效应时往往会强行设定参数)的基础。

4.2 推断、模型设定搜寻与P值操纵

在过去的30年中,推断方法得到了改进。根据莫尔顿(Moulton,1986)的一项标志性研究,研究人员现在意识到了考虑数据中分组结构的重要性。如果属于同一组的个体面临相同的变动,则应考虑组内个体之间的相关性。这是双重差分设计特别关注的一个点,双重差分设计通常利用随时间推移的跨组(例如区域)变化进行识别。双重差分设计中有关推断的重要贡献,请参阅伯特兰等人(Bertrand、Duflo and Mullainathan,2004;Donald and Lang,2007;Hansen,2007)的研究。

工具变量分析依赖于强工具变量的存在(Nelson and Startz,1990;Staiger and Stock,1997)。如果工具变量很弱,那么估计可能会出现严重偏差,由此得出的推论会产生误导性,安德鲁斯等人(Andrews、Stock and Sun,2019;Young,2020)讨论了如何改进流行的推断策略。

实证研究中的一个复杂问题是,统计上显著的结果在发表上比不显著的结果更有优势。这为研究人员从事所谓的P值操纵创造了动力。卡德和克鲁格(1995)对先前关于最低工资的文献进行了元分析,并得出结论认为这些文献存在发表偏差。最近,布罗德等人(Brodeur、Lé、Sangnier and Zylberberg,2016)也认为现有的文献存在发表偏差,因为P值略低于0.05的估计量比略高于0.05的估计量多出很多。布罗德、库克和海耶斯(Brodeur、Cook and Heyes,2020)特别关注与基于设计的方法相关的方法。他们得出的结论是,与随机对照实验和断点回归设计相比,双重差分和工具变量方法中的P值操纵情况更常见。这种情况可能是因为随机对照实验和断点回归设计比工具变量和双重差分更“照本宣科”(Ioannidis,2005)。到目前为止,随机对照实验和断点回归设计已经建立了限制研究人员自由度的行为准则。请注意,与其他类型的工具变量研究相比,部分遵从的随机对照实验研究中工具变量分析的P值操纵行为显著减少。一般来说,当工具变量分析的第一阶段较强时,P值操纵问题较少。

P值操纵的存在可能会损害实证结果的可信度。尽管如此,这一领域还是取得了一些进展,参见克里斯滕森和米格尔(Christensen and Miguel,2018)的研究。研究者们越来越关注研究设计本身(这是基于设计的研究方法的本质),以及启动研究所需的要求和分析计划,这限制了模型设定的搜寻范围。对识别假设的明确陈述(如在局部平均干预效应框架中)需要复制结果并做出稳健性分析,因为其他研究人员可以评估这些假设的有效性。随着时间的推移,复制和稳健性分析在经济学中变得越来越普遍。今天的大多数期刊都要求研究人员公布他们使用的数据(如果数据不是专有的)和程序。

5.总结性评论

在20世纪90年代早期的一系列研究中,戴维·卡德与其合作者一起使用自然实验分析了劳动经济学领域的一系列重要问题。这些研究为分析带来了严谨性和清晰度,同时,通过使用新颖的、理论上更可信的方法来分析这些问题,卡德得到了更具可信度的新答案。这些最初的研究激发了理论和实证方面的再分析,以试图理解隐藏在结果背后的机制。在这一不断发展的过程中,卡德做出了至关重要的贡献,作为这一发展过程的结果,我们现在可以比30年前更好地理解劳动力市场是如何运行的。

乔舒亚·安格里斯特和吉多·因本斯展示了在最少的一组条件下,估计一个定义良好的因果干预效应是可行的,即使个体受到干预的影响有所不同而且存在不完全遵从,依然可以估计因果效应。他们论证了如何解释因果效应,并表明可以用工具变量法估计因果效应。在得出其结论的同时,他们还将工具变量与统计学中常用于因果推断的潜在结果框架结合起来。他们的框架使识别假设的性质更加明晰,这提高了研究人员论证因果效应、评估其经验设计的敏感性以及解释其结论的能力。

今年获奖者的研究工作共同为基于设计的研究方法奠定了基础,这极大地改变了过去30年来开展实证研究的方式。基于设计的研究方法不仅使用准实验性变动,还使用实验性变动来估计我们要研究的因果效应。准实验性变动可能来自大自然、行政边界、制度规则和政策变化提供的诸多实验。基于设计的研究方法以清晰地陈述用于识别因果效应的假设以及这些假设的有效性为特征。这种方法在经济学中占据了主导地位,并且拓展到了其他社会科学之中。这极大地提高了研究人员回答对经济和社会政策具有重大意义的因果问题的能力,从而极大地造福了整个社会。

(李井奎 平福冉 译)

参考文献

Aakvik,A.,K.Salvanes,and K.Vaage(2010).“Measuring heterogeneity in the returns to education using an education reform.”European Economic Review,54:483-500.

Aaronson,D.(2001).“Price pass-through and the minimum wage.”The Review of Economics and Statistics,83(1):158-169.

Abadie,A.(2003).“Semiparametric instrumental variable estimation of treatment response models.”Journal of Econometrics,113(2):231-263.

Abadie,A.,A.Diamond,and J.Hainmueller(2010).“Synthetic control methods for comparative case studies:Estimating the effect of California′s tobacco control program.”Journal of the American Statistical Association,105(490):493-505.

Abadie,A.and G.W.Imbens(2006).“Large sample properties of matching estimators for average treatment effects.”Econometrica,74(1):235-267.

Abdulkadiro.lu,A.,J.D.Angrist,S.M.Dynarski,T.J.Kane,and P.A.Pathak(2011).“Accountability and flexibility in public schools:Evidence from Boston's charters and pilots.”Quarterly Journal of Economics,126(2):699-748.

Abowd,J.,F.Kramarz,and D.Margolis(1999).“High wage workers and high wage firms.”Econometrica,67(2):251-333.

Adao,R.,M.Kolesar,and E.Morales(2019).“Shift-share designs:Theory and inference.”Quarterly Journal of Economics,134(4):1949—2010.

Almond,A.,J.J.Doyle,Jr.,A.E.Kowalski,H.Williams(2010).“Estimating marginal returns to medical care:Evidence from at-risk newborns.”Quarterly Journal of Economics,125(2):591.634.

Altonji,J.and D.Card(1991)“The effects of immigration on the labor market outcomes of less-skilled natives.”In J.Abowd and R.B.Freeman(eds.)Immigration,Trade,and the Labor Market.University of Chicago Press.

Andrews I.,J.Stock J,and L.Sun(2019),“Weak instruments in IV regression:Theory and practice,”Annual Review of Economics,11:727-753.

Angrist,J.D.(1990).“Lifetime earnings and the Vietnam era draft lottery:Evidence from social security administrative records.”American Economic Review,80:313-385.

Angrist,J.D.(2004).“Treatment effect heterogeneity in theory and practice.”The Economic Journal,114:C52.C83.

Angrist,J.D.,E.Bettinger,E.Bloom,E.King,and M.Kremer(2002).“Vouchers for private schooling in Colombia:Evidence from a randomized natural experiment.”American Economic Review,92(5):1535-1558.

Angrist,J.D.and W.N.Evans(1998).“Children and their parent's labor supply:Evidence from exogenous variation in family size.”American Economic Review,88:450-477.

Angrist,J.D.and G.W.Imbens(1995).“Two-stage least squares estimation of average causal effect in models with variable treatment intensity.”Journal of the American Statistical Association,90(430):431-442.

Angrist,J.D.,G.W.Imbens,and D.B.Rubin(1996).“Identification of causal effects using instrumentalvariables.” Journal of the American Statistical Association,91:444-472.

Angrist,J.D.and A.B.Krueger(1991).“Does compulsory schooling attendance affect schooling and earnings?” Quarterly Journal of Economics,106:976-1014.

Angrist,J.D.and A.D.Kugler(2003).“Protective or counter 乚 productive? Labour market institutions and the effect of immigration on EU natives.”Economic Journal,113(488):F302-F331.

Angrist,J.D.and V.Lavy(1999).“Using Maimonides′ rule to estimate the effect of class size on scholastic achievement.”Quarterly Journal of Economics,114:533-575.

Angrist,J.D.,V.Lavy,and A.Schlosser(2010).“Multiple experiments for the causal link between the quantity and quality of children.”Journal of Labor Economics,28:773-824.

Angrist,J.D.andJ-S.Pischke(2008). Mostly Harmless Econometrics:An Empiricist′s Companion.Princeton University Press.Princeton.

Ashenfelter,O.A.(1978).“Estimating the effect of training programs on earnings.”Review of Economic and Statistics,58:47-57.

Ashenfelter,O.A.and D.Card(1985).“Using the longitudinal structure of earnings to estimate the effect of training programs.”Review of Economic and Statistics,67:648-660.

Athey,S and G.W.Imbens(2006).“Identification and inference in nonlinear difference-in-differences models.”Econometrica,74:431-97.

Atkinson,A.B.and Thomas Piketty(2010).Top Incomes:A Global Perspective.Oxford:Oxford University Press.

Azar J.,E.Huet-Vaughn,I.Marinescu,B.Taska,and T.von Wachter(2019).“Minimum wage employment effects.”Manuscript.

Azar J.,I.Marinescu,and M.Steinbaum(2020).“Labor market concentration.”Journal of Human Resources,forthcoming.

Balke and J.Pearl(1997).“Bounds on treatment effects from studies with incomplete compliance.”Journal of the American Statistical Association,92:1171-1176.

Bartel,A.P.(1989).“Where do new U.S.immigrants live?”Journal of Labor Economics,7(4):371-391.

Bartik,T.J.(1991). Who Benefits from State and Local Economic Development Policies? W.E UpjohnInstitute.

Becker,G.(1967). Human Capital and the Personal Distribution of Income.AnnArbor:UniversityofMichigan Press.

Berger,D.,K.Herkenhoff,and S.Mongey(2019).“Labor market power.”NBER Working Paper,25719.

Bertrand,M.,E.Duflo,and S.Mullainathan(2004),“How much should we trust differences-in-differences estimates?”Quarterly Journal of Economics,119:249-275.

Bloom,H.S.(1984).“Accounting for no-shows in experimental evaluation designs.”Evaluation Review,8(2):225-46.

Blundell,R.(2013).“Empirical evidence and tax reform.”In Acemoglu,D.,M.Arellano,and E.Dekel(eds.)Advances in Economics and Econometrics:Theory and Applications,Tenth World Congress,Vol3,Chapter 14,Cambridge University Press,Econometric Society Monographs.

Borjas,G.J.(1987).“Immigrants,minorities,and labor market competition.”Industrial and Labor Relations Review,40(3):382-392.

Borjas,G.J.(2003).“The labor demand curve is downward-sloping:Reexamining the impact of immigration on the labor market.”Quarterly Journal of Economics,118(4):1335-1374.

Borjas,G.J.(2017).“The wage impact of theMarielitos:A reappraisal.”Industrial and Labor Relations Review,70(5):1077-1110.

Borjas,G.J.,R.B.Freeman,and L.F.Katz(1996).“Searching for the impact of immigration in the labor market.”American Economic Review,86(2):246-251.

Borjas,G.J.and J.Monras(2017).“The labor market consequences of refugee supply shocks.”Economic Policy,32(91):361-413.

Borusyak,K.,P.Hull,and X.Javarel(2020).“Quasi-experimental shift-share research designs.”Review of Economic Studies,forthcoming.

Brinch,C.N,M.Mogstad,and M.Wiswall(2017).“Beyond LATE with a discrete Instrument.”Journal of Political Economy,125:985-1039.

Brodeur,A.,N.Cook,and A.Heyes(2020).“Methods matter:p-hacking and publication bias in causal analysis in economics.”American Economic Review,110(11):3634-3660.

Brodeur,A.,M.Le,M.Sangnier,and Y.Zylberberg(2016).“Star Wars:The empirics strike back.”American Economic Journal:Applied Economics,8(1):1.32.

Brown,C.,C.Gilroy,and A.Kohen(1982).“The effect of the minimum wage on employment and unemployment.”Journal of Economic Literature,20(2):487-528.

Burdett,K.and D.T.Mortensen(1998).“Wage differentials,employer size,and unemployment.”International Economic Review,39(2):257-273.

Burtless,G.(1996)(ed.), Does Money Matter?The Effect of School Resources on Student Achievement and Adult Success.The Brookings Institution.

Campbell,D.T.(1957).“Factors relevant to the validity of experiments in social settings.”Psychological Bulletin,54:297-312.

Campbell,D.T.(1969).“Reforms as experiment.”The American Psychologist,24:409-429.

Card,D.(1990).“The impact of the Mariel boatlift on the Miami labor market.”Industrial and Labor Relations Review,43:245-257.

Card,D(1992a).“Do minimum wages reduce employment? A case study of California 1987.1989.”Industrial and Labor Relations Review,46(1):38-54.

Card,D.(1992b).“Using regional variation in wages to measure the effects of the federal minimum wage.”Industrial and Labor Relations Review,Aspects of Labor Market Behaviour:Essays in Honour oj John Vanderkamp,46(1):22-37.

Card,D.(1995a).“Using geographical variation in college proximity to estimate the return to schooling.”In Christofides,N.L,E.K.Grant,and R.Swidinsky(eds.)Aspects of Labor Market Behaviour:Essays in Honour oj John Vanderkamp,University of Toronto Press,Toronto.

Card,D.(1995b).“Earnings,schooling,and ability revisited.”Research in Labor Economics,14:23-48.

Card,D.(1996).“The effect of unions on the structure of wages:A longitudinal analysis.”Econometrica,64(4):957-979.

Card,D.(1999).“The causal effect of education on earnings.”In Ashenfelter,O.and D.Card(eds.)Handbook of Labor Economics,Vol.3A,Elsevier,Amsterdam.

Card,D.(2001a),“Immigrant inflows,native outflows,and the local labor market impacts of higher immigration.”Journal of Labor Economics,19(1):22-64.

Card,D.(2001b).“Estimating the return to schooling:Progress on some persistent econometric problems.”Econometrica,69(5):1127-1160.

Card,D.(2009).“Immigration and Inequality.”American Economic Review,99(2):1-21.

Card,D.,A.Cardoso,and P.Kline(2016).“Bargaining,sorting,and the gender wage gap:Quantifying the impact of firms on the relative pay of women.”Quarterly Journal of Economics,131(2):633-686.

Card,D.,A.Cardoso,J.Heining,and P.Kline(2018).“Firms and labor market inequality:Evidence and some theory.”Journal of Labor Economics,36(S1):S13-S69.

Card,D.,R.Chetty,and A.Weber(2007).“Cash-on-hand and competing models of intertemporal behavior:New Evidence from the labor market.”Quarterly Journal of Economics,122(4):1511-1560.

Card,D.and J.DiNardo(2000).“Do immigrant inflows lead to native outflows?”American Economic Review,90(2):360-367.

Card,D.,J.Heining,and P.Kline(2013).“Workplace heterogeneity and the rise of West German wage inequality.”Quarterly Journal of Economics,128(3):967-1015.

Card,D.and D.Hyslop(2005).“Estimating the effects of a time 乚 limited earnings subsidy for welfareleavers.”Econometrica,73(6):1723-1770.

Card,D.and A.B.Krueger(1992a).“Does school quality matter? Returns to education and the characteristics of public schools in the United States.”Journal of Political Economy,100(1):1-40.

Card,D.and A.B.Krueger(1992b),“School quality and black-white relative earnings:A direct assessment.”Quarterly Journal of Economics,107(1):151-200.

Card,D.and A.B.Krueger(1994).“Minimum wages and employment:A case study of the fast-food industry in New Jersey and Pennsylvania.”American Economic Review,84:772-784.

Card,D.andA.B.Krueger(1995), Myth and Measurement:The New Economics of the Minimum Wage,Princeton University Press,Princeton.

Card,D.,and A.B.Krueger(2000).“Minimum wages and employment:A case study of the fast-food industry in New Jersey and Pennsylvania:Reply.”American Economic Review,90(5):1397-1420.

Card,D.,D.Lee,Z.Pei,and A Weber(2015).“Inference of causal effects in a generalized Regression Kink Design.”Econometrica,83(6):2453-2483.

Card,D.and A.Payne(2002).“School finance reform,the distribution of school spending,and the distribution of student test scores.”Journal of Public Economics,83:49-82.

Carneiro,P.and S.Lee(2009).“Trends in quality-adjusted skill premia in the United States,1960.2000.”,American Economic Review,109(6):2309-2349.

Cengiz,D.,A.Dube,A.Lindner,and B.Zipperer(2019).“The effect of minimum wages on low-wage jobs”, Quarterly Journal of Economics,134(3):1405-1454.

Cesarini,D.,E.Lindqvist,M.J.Notowidigdo,and R.Ostling(2017).“The effect of wealth on individual and household labor supply:Evidence from Swedish lotteries.”American Economic Review,107(12):3917-3946.

Cesarini,D.,E.Lindqvist,R.Östling,and B.Wallace(2016).“Wealth,health,and child development:Evidence from administrative data on Swedish lottery players.”Quarterly Journal of Economics,131(2):687-738.

Chamberlain,G.(1986)“Asymptotic efficiency in semiparametric models with censoring.”Journal of Econometrics,32:189-218.

Chamberlain,G.(2010).“Binary response models for panel data:Identification and information.”Econometrica,78:159-168.

Chetty,R.,J.N.Friedman,N.Hilger,E.Saez,D.W.Schanzenbach,and D.Yagan(2011).“How does your kindergarten classroom affect your earnings? Evidence from Project STAR.”Quarterly Journal of Economics,126,1593-1660.

Chetty,R.and N.Hendren(2018).“The impacts of neighborhoods on intergenerational mobility I:Childhood exposure effects.”Quarterly Journal of Economics,133(3):1107-1162.

Christensen,G.and E.Miguel(2018).“Transparency,reproducibility,and the credibility of economics research.” Journal of Economic Literature,56(3):920-980.

Coleman,J.S.,et al.(1966).Equality of Educational Opportunity.Washington:Government Printing Office .

Cortes,P.(2008).“The effect of low-skilled immigration on U.S.prices:Evidence from CPI Data.”Journal of Political Economy,116(3):381-422.

Coviello,D.,E.DeSerranno,and N.Persico(2020).“Minimum wages and individual worker productivity.”Manuscript,Northwestern University.

Cox,D.(1958).Planning of experiments.New York:John Wiley and Sons.

Dahl,G.,A.Kostol and M.Mogstad(2014).“Family welfare cultures.”Quarterly Journal of Economics,129(4):1711-1752.

Deaton,A.(2010).“Instruments,randomization,and learning about development.”Journal of Economic Literature,48:424-455.

de Chaisemartin,C.and X.D′Haultfoeuille(2020).“Two-way fixed effects estimators with heterogeneous treatment effects.”American Economic Review,110(9):2964-2996.

DiNardo,J.and D.Lee(2011).“Program evaluation and research designs.”In O.Ashenfelter and D.Card(Eds)Handbook of Labor Economics,Vol.4A.Amsterdam:Elsevier

Dobbie,W.,J.Goldin,and C.S.Yang(2018).“The effects of pretrial detention on conviction,future crime,and employment:Evidence from randomly assigned judges.”American Economic Review,108(2):201-240.

Dodd S.,I.White,and P.Williamson(2012).“Nonadherence to treatment protocol in published randomised controlled trials:a review.”Trials,13:84.

Donald S.and K.Lang(2007).“Inference with difference-in-differences and other panel data.”The Review of Economics and Statistics,89(2):221-233.

Dube,A(2019). Impacts of Minimum Wages:Review of the International Evidence.London:HMTreasury.

Dube,A.,W.Lester,and M.Reich(2010).“Minimum wage effects across state borders:Estimates using contiguous counties.”Review of Economics and Statistics,92(4):945-964.

Dube,A.,W.Lester,and M.Reich(2016).“Minimum wage shocks,employment flows,and labor market frictions.”Journal of Labor Economics,34(3):663-704.

Dunning,T.(2012),Natural Experiments in the Social Sciences,Cambridge University Press,Cambridge,UK .

Dustmann,C.,T.Frattini,and I.Preston(2013).“The effect of immigration along the distribution of native wages.”Review of Economic Studies,80(1):145-173.

Dustmann,C.and A.Glitz(2015).“How do industries and firms respond to changes in local labor supply?”Journal of Labor Economics,33(3):711-750.

Dustmann,C.,A.Lindner,U.Schonberg,M.Umkehrer,and P.vom Berge(2020).“Reallocation effects of the minimum wage.”CREAM DP 07/20,UCL.

Dustmann,C.,U.Schonberg,and J.Stuhler(2016).“The impact of immigration:Why do studies reach such different results?”Journal of Economic Perspectives,30(4):31-56.

Dustmann,C.,U.Schonberg,and J.Stuhler(2017).“Labor supply shocks,native wages,and the adjustment of local employment.”Quarterly Journal of Economics,132(1):435-448.

Finn,J.D.and C.M.Achilles(1990).“Answers and questions about class size:A statewide experiment.”American Educational Research Journal,28:557-577.

Foged,M.and G.Peri(2016).“Immigrants′ effect on native workers:New analysis on longitudinal data.” American Economic Journal:Applied Economics,8(2):1-34.

Fredriksson,P.,B.Öckert,and H.Oosterbeck(2013).“Long-term effects of class size.”Quarterly Journal of Economics,128:249-285.

Freeman,R.(1980).“An empirical analysis of the fixed coefficient“manpower requirement”model,1960-1970.”Journal of Human Resources,15(2):176-199.

Friedberg,R.M.(2001).“The impact of mass migration on the Israeli labor market.”Quarterly Journal of Economics,116(4):1373-1408.

Garen,J.(1984).“The returns to schooling:A selectivity bias approach with a continuous choice variable.”Econometrica,52:199-1218.

Glitz,A.(2012).“The labor market impact of immigration:A quasi-experiment exploiting immigrant location rules in Germany.”Journal of Labor Economics,30(1):175-213.

Goldsmith-Pinkham,P.,I.Sorkin,and H.Swift(2020).“Bartik Instruments:What,when,why,and how.”American Economic Review,110(8):2586-2624.

Grossman,J.B.(1982).“The substitutability of natives and immigrants in production.”Review of Economics and Statistics,54(4):596-603.

Haavelmo,T.(1943).“The statistical implications of a system of simultaneous equations.”Econometrica,11:1-12.

Haavelmo,T.(1944).“The probability approach in econometrics.”Econometrica,12:1-115.

Hahn,J.,P.Todd,and W.van der Klaauw(2001).“Identification and estimation of treatment effects with a Regression-Discontinuity Design.”Econometrica,69:201-209.

Hansen,C.B.(2007).“Generalized least squares inference in panel and multilevel models with serial correlation and fixed effects.”Journal of Econometrics,140:670-694.

Hanushek,E.A.(1986).“The economics of schooling:Production and efficiency in public schools.”Journal of Economic Literature,49(3):1141-1177.

Hanushek,E.A.(2003).“The failure of input-based schooling policies.”Economic Journal,113:65-98 .

Harasztosi,P.and A.Lindner(2019).“Who pays for the minimum wage?”American Economic Review,109(8):2693-2727.

Hearst,N.,T.B.Newman,and S.B.Hulley(1986).“Delayed effects of the military draft on mortality.A randomized natural experiment.”New England Journal of Medicine,314:620-624.

Heckman,J.J(1979).“Sample selection bias as a specification error.”Econometrica,47:153-161.

Heckman,J.J.(1990).“Varieties of selection bias.American Economic Review:Papers and Proceedings,80(2):313-318.

Heckman,J.J.(1997).“Instrumental variables:A study of implicit behavioral assumptions used in making program evaluations.”Journal of Human Resources,32:441-462.

Heckman,J.J.,A.Layne-Farrar,and P.Todd(1996).“Human capital pricing equations with an application to estimating the effect of schooling quality on earnings.”Review of Economics and Statistics 78:562-610.

Heckman,J.J.,J.L.Tobias,and E.Vytlacil(2001).“Four parameters of interest in the evaluation of social programs.”Southern Economic Journal,68(2):210-223.

Heckman,J.J.,J.L.Tobias,and E.Vytlacil(2003).“Simple estimators for treatment parameters in a latent-variable framework.”Review of Economics and Statistics,August 2003,85(3):748-755.

Heckman,J.J.and S.Urzua(2010).“Comparing IV with structural models:What simple IV can and cannot identify.”Journal of Econometrics 156:27-37.

Heckman J.J.and E.Vytlacil(1999).“Local instrumental variables and latent variable models for identifying and bounding treatment effects.”,PNAS,96:4730-4734.

Hedges,L.,R.D.Laine,and R.Greenwald(1994).“Does money matter? A meta-analysis of studies of the effects of differential school inputs on student outcomes.”Educational Researcher,23(3):5-14.

Hendry,D.(1980).“Econometrics .alchemy or science?”Economica,7(188):387-406.

Hernan M.and S.Hernandez-Diaz(2012).“Beyond the intention-to-treat in comparative effectiveness research.”Clinical Trials,9(1):48-55.

Hernan,M.and J.Robins(2017).“Per-protocol analyses of pragmatic trials.”The New England Journal of Medicine:Statistics in Medicine,377(14):1391-1398.

Hirano,K.,G.W.Imbens,and G.Ridder(2003).“Efficient estimation of average treatment effects using the estimated propensity score.”Econometrica,71:1161-1189.

Hoxby,C.(2001).“All school finance equalizations are not created equal.”Quarterly Journal of Economics,116:1189-1231.

Hunt,J.(1992).“The impact of the 1962 repatriates from Algeria on the French labor market.”Industrial and Labor Relations Review,45(3):556-572.

ICHGCP(1999).“International Conference on Harmonization of Good Clinical Practice E9 expert working group:ICH harmonised tripartite guideline.Statistical principles for clinical trials.”Statistics in Medicine,18:1905-1942.

Imbens,G.W.(2010).“Better LATE than nothing:Some comments on Deaton(2009)and Heckman and Urzua(2009).”Journal of Economic Literature,48(2):399-423.

Imbens,G.W.and J.D.Angrist(1994).“Identification and estimation of local average treatment effects.”Econometrica,61:467-476.

Imbens,G.W.and D.B.Rubin(1997a).“Bayesian inference for causal effects in randomized experiments with noncompliance.”Annals of Statistics,25:305-377.

Imbens,G.W.and K.Kalyanaraman(2012).“Optimal bandwidth choice for the regression discontinuity estimator.”Review of Economic Studies,79(3):933-959.

Imbens,G.W.and D.B.Rubin(1997b).“Estimating outcome distributions for compliers in instrumental variables models.”Review of Economic Studies,64:555-574.

Ioannidis,J.P.(2005).“Why most published research findings are false.”PLoS Medicine,2(8):e124.

Jackson,K.(2020).“Does school spending matter? The new literature on an old question.”An Equal Start:Policy and Practice to Promote Equality of Opportunity for Children.

Jackson,K.,R.Johnson,and C.Persico(2016).“The effects of school spending on educational and economic outcomes:Evidence from school finance reforms.”Quarterly Journal of Economics,131(1):157-218 .

Jaeger,D.,J.Ruist,and J.Stuhler(2018).“Shift-share Instruments and the Impact of Immigration.”NBER Working Paper 24285.

Johnson,D.S.,J.A.Parker,and N.S.Souleles(2006).“Household expenditure and the income tax rebates of 2001.”American Economic Review,96(5):1589-1610.

Katz,L.and A.B.Krueger(1992).“The effect of the minimum wage on the fast-food Industry.”Industrial and Labor Relations Review,46(1):6-21.

Kennan,J.(1995).“The elusive effects of minimum wages.”Journal of Economic Literature,33(4):1950-1965

Kerr S.P.,T.Pekkarinen,and R.Uusitalo(2009).“School tracking and intergenerational income mobility:Evidence from the Finnish comprehensive school reform.”Journal of Public Economics,93:965-973.

Kirkeboen,L.J.,E.Leuven,and M.Mogstad(2016).“Field of study,earnings,and self-selection.”Quarterly Journal of Economics,31(3):1057-1111.

Kline,P and C.Walters(2019).“On Heckits,LATE,and numerical equivalence.”Econometrica,87(2):677-696.

Kling,J.(2006).“Incarceration length,employment,and earnings.”American Economic Review,96(3):863-876.

Kroft,K.,Y.Luo,M.Mogstad,and B.Setzler(2020).“Imperfect competition and rents in labor and product markets:The case of the construction industry”.NBER Working Paper 27325.

Krueger,A.B.(1999).“Experimental estimates of education production functions”,Quarterly Journal of Economics,114:497-532.

Krueger,A.B.and D.M.Whitmore(2001).“The effect of attending a small class in the early grades on college-test taking and middle school test results:Evidence from Project STAR.”Economic Journal,111:1-28.

KVA(2019).“Understanding development and poverty alleviation.”Scientific background on the Sveriges Riksbank Prize in Economic Sciences in Memory of Alfred Nobel 2019.

Lalive,R.(2008).How do extended benefits affect unemployment duration? A regression discontinuity approach.Journal of Econometrics,142(2):785-806.

Lalive,R.,C.Landais,and J.Zweimuller(2015).“Market externalities of large unemployment insurance extension programs.”American Economic Review,105(12):3564-396.

LaLonde,R.J.(1986).“Evaluating the econometric evaluations of training programs using experimental data.” American Economic Review,76:602-620.

Lalonde,R.J.and R.Topel(1991).“Labor market adjustments to increased immigration.”In J.Abowd and R.B.Freeman(eds.)Immigration,Trade,and the Labor Market.University of Chicago Press.

Lamadon,T.,M.Mogstad,and B.Setzler(2020),Imperfect competition,compensating differentials and rent sharing in the U.S.labor market.Manuscript.University of Chicago.

Leamer,E.(1983).“Let's take the con out of econometrics.”American Economic Review,73:31-43.

Lee,D.S.(2008).“Randomized experiments from non-random selection in U.S.house elections.”Journal of Econometrics,142(2):675-697.

Lewis,E.(2011).“Immigration,skill mix,and capital skill complementarity.”Quarterly Journal of Economics,126(2):1029-1069.

Little R.and D.Rubin(2000).“Causal effects in clinical and epidemiological studies via potential outcomes:concepts and analytical approaches.”Annual Review of Public Health,21:121-145.

Manacorda,M.,A.Manning,and J.Wadsworth(2012).“The impact of immigration on the structure of wages:Theory and evidence from Britain.”Journal of the European Economic Association,10(1),120-151.

Manning,A.(2021).“The elusive employment effect of the minimum wage.”Journal of Economic Perspectives,35(1):3-26.

Manski,C.(1990).“Nonparametric bounds on treatment effects.”American Economic Review:Papers and Proceedings,80(2):319-323.

McNamee R.(2009).“Intention to treat,per protocol,as treated and instrumental variable estimators given non-compliance and effect heterogeneity.”Statistics in Medicine,28(21):2639-2652.

Meghir,C.and M.Palme(2005).“Educational reform,ability,and family background.”American Economic Review,95(1):414-424.

Mincer,J.(1958).“Investment in human capital and personal income distribution.”Journal of Political Economy,66(4):281.302.

Moulton,B.(1986).“Random group effects and the precision of regression estimates.”Journal of Econometrics,32(3):385-397.

Nelson,C.R.and R.Startz(1990).“The distribution of the instrumental variables estimator and its t-ratio when the instrument is a poor One.”Journal of Business,63:S125-S140.

Neumark,D.and W.Wascher(1992).“Employment effects of minimum and subminimum wages:Panel data on state laws.”Industrial and Labor Relations Review,46(1):55-81.

Neumark,D and W.Wascher(2000).“Minimum wages and employment:A case study of the fast-food industry in New Jersey and Pennsylvania:Comment.”American Economic Review,90(5):1362-1396.

Neyman,J.(1923/1990).“On the application of probability theory to agricultural experiments,Essays on principles,section 9.”translated inStatistical Science,(with discussion)5,465-480.

Ottaviano,G.and G.Peri(2012).“Rethinking the effect of immigration on wages.”Journal of the European Economic Association,10(1),152-197.

Pearl,J.(2000),Causality:Models,Reasoning,and Inference,Cambridge University Press,New York.

Pearl,J.(2009).“Causal inference in statistics:An overview.”Statistics Surveys,3:96-146.

Peri,G.(2012).“The effect of immigration on productivity:Evidence from U.S.states.”Review of Economics and Statistics,94(1):348-358.

Peri,G.and C.Sparber(2009).“Task specialization,immigration,and wages.”American Economic Journal:Applied Economics,1(3):135-69.

Peri,G.and C.Sparber,(2011).“Assessing inherent model bias:An application to native displacement in response to immigration.”Journal of Urban Economics,69(1):82-91.

Peri,G.and V.Yasenov(2019).“The labor market effects of a refugee wave:Synthetic control method meets the Mariel Boatlift.”Journal of Human Resources,54:267-309.

Pop-Eleches,C.and M.Urquiola(2013).“Going to a better school:Effects and behavioral responses.”American Economic Review,103(4):1289-1324.

Portugal,P.and A.Cardoso(2006).“Disentangling the minimum wage puzzle:An analysis of worker accessions and separations.”Journal of the European Economic Association 4(5):988-1013.

Renkin,T.,C.Montialoux,and M.Siegenthaler(2020).“The pass-through of minimum wages into U.S.retail prices:Evidence from supermarket scanner data.”Review of Economics and Statistics,forthcoming.

Robins,J.M.(1989).“The analysis of randomized and non-randomized AIDS treatment trials using a new approach to causal inference in longitudinal studies.”In Sechrest,L.Freeman,H.and Bailey,A.(eds.),Health Service Research Methodology:A Focus on AIDS(vs.PublicHealthService).

Robinson,J(1933), The Economics of Imperfect Competition,MacMillan.

Rothstein,J.and D.W.Schanzenbach(2021).“Does money still matter? Attainment and earnings effects of post-1990 school finance reforms.”NBER Working Paper No.29177.

Rubin,D.B.(1974).“Estimating causal effects of treatments in randomized and non-randomized studies.” Journal of Educational Psychology,66:688-701.

Rubin,D.B.(1977).“Assignment to treatment group on the basis of a covariate.”Journal of Educational Statistics,2:1-26.

Rubin,D.B.(1980).“Discussion of“Randomization analysis of experimental data in the Fisher randomizationtest”byBasu. Journal of the American Statistical Association,75(371):591-93

Shrier I.,R.Steele,E.Verhagen,R.Herbert,C.Riddell,J.Kaufman J.S.(2014).“Beyond intention to treat:what is the right question?”Clinical Trials,11(1):28-37.

Shrier I,E.Verhagen,S.Stovitz(2017).“The intention-to-treat analysis is not always the conservative approach.”American Journal of Medicine,130(7):867-871.

Sims,C.A.(1980).“Macroeconomics and reality.”Econometrica,48(1):1-48.

Snow,J.(1855).On the Mode of Communication of Cholera.2nd ed.John Churchill,London.

Sovey,A.and D.Green(2011).“Instrumental variables estimation in political science:A readers′guide.” American Journal of Political Science,55:188-200.

Staiger,D.and J.Stock(1997).“Instrumental variables regression with weak instruments.”Econometrica,65(3):557.586.

Steele R.,I.Shrier,J.Kaufman,R.Platt(2015).“Simple estimation of patient-oriented effects from randomized trials:An open and shut CACE.”American Journal of Epidemiology,182(6):557-566.

Thistlewaite,D.L.and D.T.Campbell(1960).“Regression-discontinuity analysis:An alternative to the ex post facto experiment.”Journal of Educational Psychology,51:309-317.

Vytlacil,E.(2002).“Independence,monotonicity,and latent index models:An equivalence result.”Econometrica,70:331-341.

Wolfson,P.and D.Belman(2019).“15 years of research on U.S.employment and the minimum wage.”Labour 33(4):488-506.

Wright,P.G.(1928).The Tariff on Animal and Vegetable Oils,Macmillan,New York.

Young,A.(2020).“Consistency without inference:Instrumental variables in practical application.”mimeo:London School of Economics and Political Science.

[1] 本文为诺贝尔经济学奖评委会对2021年诺贝尔经济学奖得主戴维·卡德(David Card)、乔舒亚·安格里斯特(Joshua Angrist)和吉多·因本斯(Guido Imbens)学术贡献的总结报告,感谢李一南博士提供的帮助。——编者注

[2] 英文为treatment,也翻译成处理,在医学实验中通常翻成治疗或医疗干预;在经济学研究中通常指政策干预,文中也将treatment和干预(intervention)并用,为便于阅读和理解,本文统译为干预。——编译注

[3] 当时,人们普遍担心无法可靠地构建因果关系。参见Hendry(1980)、Sims(1980)和Leamer(1983)等。

[4] 早在20世纪60年代,Donald Campbell就讨论了使用教育领域的制度改革和制度规则估计因果效应(见本文第1节)。

[5] 垄断是指雇主在劳动力市场上拥有市场支配势力的情况(Robinson,1933)。雇主可以利用这种市场势力将工资设定为低于竞争性劳动力市场的水平。在垄断劳动力市场中,由于劳动力供给的积极反应,最低工资的边际增加可以提高就业。

[6] 也就是说,越“有能力”的人收入越高,而这些人往往受教育程度也更高。由于无法观察到能力的所有维度,因此OLS估计量可能存在正向偏差(见第1节)。

[7] 例如,如果个体不知道干预将如何影响他们,或者不对这种干预采取异质性行动,那么估计受干预者的平均因果效应就是可行的。

[8] 这些方法在第1节中都有简要的介绍。

[9] 所谓双盲实验,就是研究对象(如患者)和干预的实施者都不知道研究对象被分配到了哪个组。如果实验的参与者知道实验对象会接受何种干预,他们的行为可能会受到影响,这可能会使实验对干预效果的估计产生偏差。

[10] 由于潜在结果与干预状态无关,因此干预组中的因果效应也就可以被认为是实验人群的因果效应。

[11] Campbell(1957)介绍了内部有效性和外部有效性之间的区别。

[12] 双重差分设计可能是最常用于估计因果效应的研究设计。这一方法会对受干预对象在干预前后的结果变化与未受干预对象的相应变化进行比较。一般认为,双重差分设计最早出现于John Snow(1855)。

[13] 请注意,“遵从者”是一个概念结构。我们无法判断一个人是否为遵从者。不过,如第3节所述,我们可以确定遵从者在总体中的份额,并且可以描述他们的特征。

[14] 早期文献还包括使用横截面数据的研究,但此类研究在解释时也存在类似的问题。

[15] Neumark and Wascher(1992)也有相关的一项研究,该研究提供的证据与之前的时间序列证据更为吻合。

[16] 他们实际上复兴了一种在时间序列证据出现之前很常见的案例研究方法,Kennan(1995)介绍了这一方法较早期的文献。

[17] 总的来说,Card and Krueger(1994)的研究设计类似于县级边界不连续设计。在这种设计中,研究人员比较了跨越州界的两个相邻县,其中一个县经历了最低工资增长,而另一个则没有;参见Dube、Lester and Reich(2010)。

[18] Card and Krueger(1994)的数据质量受到了Neumark and Wascher(2000)的批评。Card and Krueger(2000)因此使用来自劳工统计局的行政数据重新进行了分析。他们发现新泽西州的一个指标有正的估计值,但统计上并不显著。

[19] Card and Krueger(1995)的书中还包含了新的分析,例如,最低工资对公司价值的影响、之前时间序列和面板数据证据的稳健性、关于最低工资的国际证据以及对他们1992年和1994年论文的更新与扩展。

[20] 由于大多数其他国家都是在全国范围内确定了最低工资,因此研究人员必须依赖于不同公司受最低工资影响的程度不同来进行比较(如Katz and Krueger,1992),或者基于受最低工资不同程度影响的个体,以及受不同程度影响的地区进行比较(如Card,1992b)。

[21] 第4年工资弹性为-0.18,这与Dube(2019)报告的美国的-0.17非常接近。Harasztosi and Lindner(2019)还表明了资本劳动替代的结果:受最低工资上涨影响更大的公司因为这一政策增加了资本投资。因此,资本劳动替代对就业产生了更大的长期影响。

[22] 这部分讨论引用了Manning(2021)的研究。

[23] 最近关于劳动力(和产品)市场不完全竞争后果的研究非常活跃。不完整地罗列,就有Azar、Marinescu and Steinbaum(2020)、Berger、Herkenhoff and Mongey(2019)、Kroft、Luo、Mogstad and Setzler(2020)以及Lamadon、Mogstad and Setzler(2020)等。Azar et al.(2019)研究了在劳动力市场更加集中的情况下,最低工资对就业是否存在更加正向的影响,关于这个问题,他们的答案是肯定的。

[24] 在事情发生30年后,用于分析的数据集(当前人口调查)提供的样本似乎太少,无法得出准确的结论:参见Borjas(2017)和Peri、Yasenov(2019)之间的交流。然而,Peri and Yasenov(2019)重新分析了马列尔港偷渡事件,再现了卡德的原始结果。

[25] 它们通常被称为Bartik(1991)工具变量,尽管它们的知识遗产可能可以追溯到Freeman(1980)。最近有一些文献研究了这些偏离份额工具变量何时具有有效工具的所有属性,这些文献包括Adao、Kolesar and Morales(2019)、Borusyak、Hull and Javarel(2020)以及Gold smith-Pinkman、Sorkin and Swift(2020)等。Jaeger、Ruist and Stuhler(2018)批判性地讨论了在移民背景下偏离份额工具变量的使用。

[26] 这些文献包括Hunt(1992)、Friedberg(2001)、Angrist and Kugler(2003)以及Glitz(2012)等。Borjas and Monras(2017)重新审视了其中的一些研究。他们的分析表明移民对当地人的影响存在很大的异质性:根据他们的结论,和移民具有相似技能的本地人会受到不利影响,而技能与移民互补的本地人则受到正面的影响。

[27] Dustmann、Schönberg and Stuhler(2016)调查了文献并讨论了为什么不同研究中估计值的差异很大。不过,Borjas(2003)和Card(2009)的估计值彼此相对接近。根据Borjas(2003),移民驱动的相对供给增加1%会使相对工资降低0.57%。根据Card(2009),相应的变化将使相对工资减少0.42%。

[28] 这一结论受到了挑战。对Hanushek综述的各项研究所做的正式元分析表明,成绩与资源之间存在正相关关系;参见Hedges、Laine and Greenwald(1994)。

[29] 今天,有大量关于低收入国家教育生产函数的实验文献(KVA,2019)。在高收入地区,有关学校投入和政策的随机实验很少见,部分原因是制度约束,部分原因是实施此类实验的成本很高。但是也有例外。最著名的例子就是美国的STAR项目,学生被随机分配到小班和普通班:参见Finn and Achilles(1990)。来自STAR的数据随后被用于许多研究论文:参见Krueger(1999)、Krueger and Whitmore(2001)以及Chetty等(2011)。这些研究大都发现,在低年级时被分配到规模较小的班级对学生短期和长期的教育结果都产生了有益的影响。还有一些关于班级规模的准实验文献,例如Angrist and Lavy(1999)以及Fredriksson、Öckert and Oosterbeek(2013)也得出了类似的结论。

[30] Card and Krueger(1992a)使用的经验策略已在文献中得到了其他人的追随:Carneiro and Lee(2009)以及Chetty and Hendren(2018)是两个相对较近期的例子。

[31] 这种“迁徙者设计”实际上考虑了未观察到的收入决定因素与受教育年限之间的相关性。如果我们想将出生组别和州对学校教育回报的估计解释为因果关系,那么关键的假设是,对于从不同出生州(亚拉巴马州或艾奥瓦州)搬到特定州(加利福尼亚州)的所有人来说,这种相关性是相同的。

[32] Heckman、Layne-Ferrar and Todd(1996)复制并扩展了Card and Krueger(1992a)的分析。他们的分析表明,学校质量对学校教育回报率有重要影响,但主要体现在更高层次的教育上(大学或更高层次)。

[33] 他们发现,在小学和高中期间,每名学生的教育支出每增加10%,学生的受教育程度会提高0.31年,工资会提高7%。

[34] 但是请注意,教育的个人回报和社会回报通常是不同的;例如,税收和转移支付使学校教育的个人回报和社会回报出现了差异。

[35] 更一般地说,卡德得出的结论是,如果最优教育选择的变化主要是由贴现率(或信用约束)的变化而不是能力的变化驱动的,那么那些受教育程度最低的人接受教育的边际回报更高。

[36] 相比之下,发展中国家的关注点似乎不是教育资源,而是教学方式和水平;参见KVA(2019)。

[37] 在电视上播出的抽签中,对于符合征兵资格的出生组别,每个出生日期都被分配了一个介于1到365之间的数字,所有号码低于特定上限的男性都有资格参加征兵。

[38] 例如,Garen(1984)的分析使用随机系数框架,允许学校教育回报存在异质性。为了识别实验人群的平均教育回报,这篇文章增加了随机系数呈正态分布的假设。

[39] Bloom(1984)表明,受干预者的平均因果效应可以通过工具变量法来估计,因为它等于意向干预效应和遵从率之比。这是有效的,因为当存在单方面不遵从时,受干预者与遵从者是一致的。在这种情况下,受干预者的平均因果效应就等于局部平均干预效应(见下文)。

[40] 一种相关的方法是假设某些可观测到的协变量具有不受限制的支持度(support)。那么,随着协变量的值趋向于无穷大,接受干预的概率也就会趋向于零,这意味着可以使用“在无穷大处识别”(identification at infinity)来识别受干预者的平均因果效应;参见Chamberlain(1986)和Heckman(1990)。

[41] 我们还应该提到Angrist and Pischke(2008)的教科书,它彻底改变了针对研究生的计量经济学教学方式。

[42] 倾向性得分是在给定观测到协变量的情况下接受干预的概率。

[43] 统计学中因果推断的另一种概念模型是结构因果模型(SCM),参见Pearl(2000)。Pearl(2009)讨论了结构因果模型和潜在结果框架之间的关系。

[44]我们对Imbens and Angrist(1994)研究结果的展示遵循Angrist、Imbens and Rubin(1996)的研究。本文始终假设个体i的潜在结果与所有其他人的干预状态无关(Cox,1958;Rubin,1980)。这个假设排除了一般均衡效应。

[45] 目前,美国有16个州的法定最低辍学年龄为18岁,9个州的法定最低辍学年龄为17岁,其余(大多数)州的法定最低辍学年龄为16岁。

[46] Robins(1989)使用假设1、假设3和假设4(以及其他假设)来限定总实验人群的平均干预效应。

[47] 因此,他们考虑了一个涉及后验分布参数模型的贝叶斯框架,这使他们能够生成无法观测到的潜在结果。除了遵从者,这个假设使他们能够估计总是接受者和从不接受者的意向干预效应,这提供了一种检验排除性限制有效与否的方法(因为如果排除性限制成立,那么总是接受者和从不接受者的意向干预效应为零)。请注意,在排除性限制和单调性假设下,贝叶斯模型与局部平均干预效应框架是一致的。

[48] Heckman and Vytlacil(1999)表明,通过使用能够将受干预概率从0变为1的连续工具变量,可以对平均干预效应进行非参数识别。在实践中,具有这种特性的工具变量极为罕见,大多数工具变量都是有限支持度下的离散变量。

[49] 此外,人们可以比较针对遵从者和总是接受者施加干预后的潜在结果分布情况,以及针对遵从者和从不接受者施加干预后的潜在结果分布情况。

[50] 最早使用抽签来解决选择偏差问题的研究是Hearst、Newman and Hulley(1986)的研究,他们分析了抽签资格对越南战争后死亡率的简化式影响。相比之下,Angrist、Imbens and Rubin(1996)分析了在越南战争中服役对之后死亡率的影响。

[51] 例如,Dunning(2012)讨论了自然实验在社会科学中的应用。Sovey and Green(2011)使用工具变量方法进行了政治学研究。

[52] 在本节中,我们会使用医学文献的术语。干预遵从性意味着遵循试验方案中规定的干预顺序。当干预仅进行一次时,不遵从性的定义与之前相同。

[53] McNamee(2009);Shrieret al(2014);Shrier、Verhage and Stovitz(2017);Steele、Shrier、Kaufman and Platt(2015),等等。