社会科学因果推断的理论基础
上QQ阅读APP看书,第一时间看更新

前言

记得刚刚进入复旦大学学习社会学的时候,读到的第一本学术著作便是英克尔斯的《社会学是什么?》。总结这本书的主要思想,社会学是一门采用科学的方法研究社会结构与社会发展规律的学科。虽然当时对什么是科学的方法还不甚了解,但我从这本书中学习到一种受益终生的观念:社会学的学术研究离不开科学的方法。正所谓“工欲善其事,必先利其器”,社会学研究者只有掌握了一套研究社会的科学手段和工具,才能够从纷繁复杂的社会现象中抽离出具有规律性的模式。正因为如此,我后来在研究生阶段的学术训练很大一部分内容都是围绕研究方法展开的。这种对于科学方法的重视也促使我在学习社会学之外专门修读了统计学硕士学位。

那么,什么是科学的方法呢?对于这个问题,相信不同的学者会有不同的答案。但是,社会学研究者们能够基本上达成共识的是:一套科学的社会学研究方法应当具有以下两个特点。其一,这套方法可以用于经验事实的研究;其二,这套方法可以帮助研究者确立某种因果关系。第一点毋庸置疑,既然社会学探索的是社会的基本模式,那么社会学家们所采用的研究手段也必然是经验取向的。正因为如此,超验的思辨并不是一种研究社会的手段,尽管它或可成为一种理论建构的路径。第二点在某种程度上也是毋庸置疑的。这是因为社会学的很多理论恰恰是用来“解释”社会现象的。说到“解释”,自然涉及因果了。

但是,通过社会学的经验方法去建构因果关系是非常困难的。究其原因,在于社会学所关注的议题往往非常复杂,且其背后的形成机制太多。例如,社会学中一个很重要的研究主题是经济地位的不平等,造成这种不平等的原因有很多,其中可能涉及地区差异、行业区别、教育成就、家庭背景、个人能力等诸多因素,不一而足。面对这种情况,如果研究者想确立教育成就与收入不平等之间的“净”关系,就需要对其他形塑经济地位不平等的因素进行控制。但正因为需要控制的因素太多,以至于几乎没有社会学研究者能够非常自信地宣称自己已经控制了所有需要控制的因素。此时,收入不平等的成因有可能是教育成就的差异,但也有可能是一些没有考虑到的混淆因素。在这种情况下,经验研究的结论便很容易受到质疑了。

实际上,上面谈到的这个问题不仅仅在社会科学研究中经常出现,它也是其他学科进行科学研究中经常遇到的“拦路虎”。比如,在生物学中,研究者为了确定特定基因对于某种植物抗倒伏性的影响,需要充分考虑到实验中这一植物所处的自然环境并将其控制。对于自然科学家而言,控制潜在的混淆因素可以通过随机实验完成。统计学理论告诉我们,在一个随机实验中,因变量Y的变化只可能归因于两个因素,一个是我们关心的自变量X的取值变化,一个是随机误差。当我们的研究对象足够多且能够保证较高统计检定力的时候,Y的变化只有很小的概率是由于随机性造成的(通常设定在5%)。此时,研究者就有很高的自信(95%)来确立从X到Y的因果关系。正因为如此,随机实验方法通常被看作科学研究的“黄金方法”。

那么,社会学研究中能不能进行随机实验呢?这个问题的答案在很大程度上取决于具体的研究主题。很遗憾的是,对于社会学家们关心的很多主题而言,随机实验方法是不现实或者不恰当的。我们不可能随机地安排一些人去经历战争,以考察战争的社会创伤效果。我们也不可能随机地安排一些被研究者有意酗酒,以考察酒精上瘾对于生活状态的影响。此时,摆在社会学研究者面前的往往是另外一种研究途径,即:收集一些经历了战争的个体的信息,并将其与没有经受战争的人进行比较。同理,找到一些现实生活中的酗酒者,观察其生活状态,并将之与非酗酒者的生活状态进行对比。这类研究虽然可以实施,但是上面谈到的各种混淆因素也随之进入研究者的分析框架中。也就是说,基于观测性数据进行研究的社会学学者不能很有自信地说自己的结论反映了某种因果关系。此时,社会学的研究者为了进行因果推论,不得不采用更为复杂的分析策略。对于这些策略的理论基础进行系统的介绍便是本书的任务。

摆在读者面前的这本书共有7章。第1章介绍了随机实验的基本原理,以及如何在反事实的统计理论框架下进行因果推论。第2章着重讨论了倾向值匹配的基本过程,以及为什么我们能够利用倾向值匹配的方法进行因果推论。第3章通过一个具体的实例展示了倾向值匹配的过程。第4章讨论了如何从传统的倾向值方法出发,将因果推论分析扩展到多类别变量、因果中介分析和因果异质性分析。第5章关注了因果分析过程中非常重要却往往被学者们忽视的统计检定力和样本量问题。第6章将因果推论分析推广到个案研究中,系统介绍了综合控制个案方法。第7章总结全书,并对倾向值技术进行了反思。

通过上述各章的基本信息介绍,读者们不难发现,本书并不是一本常规意义上的统计学教科书。在本书中,我并没有具体告诉读者如何利用流行的统计软件(如R或者Stata)来进行具体的经验分析。相反,作为一本严肃的学术著作,本书的重点在于系统介绍基本的因果推论原理和背后的统计理论。之所以这样安排,是出于以下原因。其一,好的统计学教材有很多,其中不乏一些讨论因果关系的经典教材。因此,感兴趣的读者可以参考这些教材自学,本书没有必要做简单重复劳动。其二,统计软件毕竟是我们研究的工具,只有在了解了各种统计模型背后的基本原理之后,研究者才能够准确和高效地使用这些工具。否则,社会学的量化研究有可能沦为一种简单的数据加工,相关的研究结论可能由于缺乏坚实的方法论基础而变得不准确。因此,我在自己教授的统计课上,一直希望引导学生将学习的重心放在原理上,而不是简单地学会某种方法的操作。本书也体现了我的这一一贯主张。

最后,希望读者能够从本书中获益,我也衷心希望本书的出版能够为国内的量化社会科学研究做出微薄的贡献,让更多对社会生活因果关系感兴趣的人愿意加入社会科学研究的行列中。

胡安宁

2015年6月