6 研究设计和抽样理论的基础_社会学方法与定量研究（第二版）-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

6 研究设计和抽样理论的基础

我已经强调了社会科学与自然科学的不同。社会科学重视差异，包括个体与个体之间的差异和由个体组成的整体之间的差异。我也总结了做因果关系分析时经常遇到的问题，问题的来源就在于个体与个体之间有差异。比较两个人、两组人、两个国家或者两种文化，除了看到的差异之外，还有隐藏的、看不到的东西，这就是观察不到的选择性。假如这些选择性可以观察到，能用统计方法测量到，那么就可以用统计的方法来控制。下一讲会详细地讲一些方法上的问题，即假如这些选择性没有被观察到的话，我们该如何处理。另外我还指出了造成忽略变量偏误的两个条件，即在什么情况下，你忽略了变量会导致偏误。这些都是因为人与人、一件事情与另外一件事情、个体与个体之间存在差异造成的。

今天我要谈一些相对比较传统的概念和方法上的研究设计，以及一些抽样理论的基础。一般的研究设计是从分析单位讲起，再讲分析单位的层次问题，最后讲分析单位的总体和几种重要的分析单位。分析单位就是被研究的社会实体，这些实体可能是个人、家庭、组织。任何社会学研究的对象都可以叫做研究实体，它们是研究者需要观察、了解和描述的对象。所以分析单位的涵义是很简单的，就是你想研究的事物。分析单位是有层次的，一个较高水平上的分析单位可能包括多个较低水平的分析单位。比如个人是生活在家庭中的，多个人组成一个家庭，多个家庭又组成一个社区，多个社区组成一个县，多个县形成地区，地区再组成国家。社会现象存在差异，而差异首先就表现在分析单位的不同层次上。差异所在的地方，就是需要解释的地方。假如你不知道差异在什么地方，你就不可能找到合适的解释。比如说文化，如果找不到文化之间的差异，就很难解释两个国家之间的差异。解释的差异和社会结果的差异要吻合，否则解释就是失败的。所以，在确定了研究对象在什么样的层次上后，解释的差异和社会结果的差异就要在这同一层次上。

一旦建立了分析单位，就要知道分析单位的总体是什么。确定分析单位的总体是非常重要的，因为要解释的是所有现象，而不是一两个现象。举一个例子，如果要评估北大社会学系20年来教学质量的趋势，什么是总体？我想听一下同学的回答。

学生一：是社会学系。

谢宇：社会学系不是一个变量。假如有几个系的话，我们可以做一个比较，但如果只有一个系的话，它就不成为一个变量。

学生二：是不是北大社会学系每年的招生质量？

谢宇：很好，但你讲的是生源的质量。我的答案是社会学系所有20届的学生。以每一届学生为一个观察点，想知道20年来教学质量的变化的话，就对每一届学生进行一个比较分析，从一届到下一届，比较他们的教学质量有什么差别。这里的分析单位是一届学生，而分析单位的总体就是整个20届北大社会学系的学生。所以在选定一个研究对象后要知道它的分析单位是什么，知道了分析单位后要知道分析单位的总体是什么，这是做研究的第一步。

在具体的研究中，我们会用到哪些具体的分析单位呢？有这样几种重要的分析单位：第一个分析单位是个体，个体在社会学中基本上是指个人。个体是社会学最基本的分析单位，其他的分析单位都是由个体组成的，没有比个体更小的分析单位。第二个分析单位是人群，人群作为分析单位时它的很多特征是由个人的特征汇总而成的，对人群的测量是通过对个体的测量汇总而来的，例如种族、社区、家庭等由个体集中起来的群体；或者例如男性工作者的工资要比女性高，工资本来就是以个人为单位的，两性的比较是通过对不同个体的汇总得到的。第三个分析单位就是组织，组织不仅仅是个人的集合，它重在组织成员之间的关系。关系是不能靠一个人形成的，没有学生就没有老师，也就没有师生关系。组织的重要性在于它强调了关系。涂尔干（Émile Durkheim）就曾强调社会学研究的是社会现象，社会现象不是由单个人造成的。当人们参加组织和团体活动时，个人的力量就被组织的力量所掩盖。社会学之所以重视对组织的研究，是因为组织虽然是由个人组成的，但是它已经超越了个人本身而形成了一种关系。这种关系就是一种社会事实，而这种社会事实就是我们社会学要研究的重要部分。第四个分析单位是社会艺术品，比如书籍、建筑、绘画等。

下面要谈谈时间性。时间性是一个很重要的概念。要研究社会现象，就要关注时间。时间从方法论角度来讲是一种信息；从理论角度来讲是研究的对象。譬如人的行为是随着人的经验、经历而变化的，以前的经历会对以后的经历产生影响，你这方面的经历对那方面的经历会有影响，这些都与时间有关系。研究社会变化也是如此。因此，在考虑社会变化和个人变化时，都要考虑到时间性。做方法论也要注意时间性：什么事情先发生，先被观察到；什么事情是后发生的，是随后观察到的。因此时间性是一个很重要的概念。

根据时间性，可以把研究设计分成两大类：一类是横向分析，另一类是纵向分析。横向分析是在一个时间点上的分析，是社会发展历程中的一个“快照定格”。要了解一个社会就要从横向分析开始，这是最基本的分析。虽然横向分析给你的信息是有限的，但是这些信息很有用处，是研究社会的第一步。比如在美国，每十年进行一次人口普查。中国第六次人口普查刚做完。每一次普查都是一次横向分析，是对社会的一次解剖，解剖的时间是人为决定的。在美国还有很多横向分析，我举两个例子：一个是“现时人口调查”（Current Population Survey），简称CPS。它始于美国的大萧条时期。美国政府为了监测经济发展情况，防止大萧条的再度发生，由政府出资，每个月都对经济发展的一些指标进行统计分析，通过这些指标来了解经济发展的状况，看当前的经济状况是否面临危机。另外一个横向研究是“监测未来”（Monitoring the Future），这是密歇根每年都做的一个很大的针对中学生的调查。美国青少年中有很多不良现象，这个调查就是为了监测青少年的不良行为，包括吸烟、喝酒、吸毒等。但是横向分析的信息是有限的，因为它忽略了动态的因素。为了了解动态的现象，我们就要采用纵向分析的方法。

纵向分析有助于推导因果关系，因为从纵向分析中你会很清楚地看到什么事情先发生，什么事情后发生。从理论上来讲，先发生的是原因，后发生的是结果。比如在美国，一个很重要的发现就是父母离婚对小孩的教育、成长状况、心理健康以及以后的行为都会产生不利的影响。如果要研究这个课题的话，首先要观察到哪些家庭离婚了，父母离婚前小孩的行为和父母离婚后小孩的行为有什么不同。因为我们假设父母离婚后，小孩会改变他的行为，偏离他原来的生活轨迹，所以说纵向分析对社会学研究有很大的帮助。

纵向分析有两种类型：一种是趋势分析（trend analysis），一种是追踪分析（longitudinal analysis）。其中趋势分析并不是真正的纵向分析，我之所以把它们放在一起是要你们知道它们的区别。趋势分析是在不同时点上对同一总体进行独立重复抽样的研究。我要强调的是趋势分析是对同一总体的研究，每次的研究对象可以是不同个体，但必须是来自同一总体，而且第一次研究和第二次研究是独立重复的研究。因此，从方法论角度来讲，趋势分析实际上不是纵向分析，它可以被称作汇集的横向分析，就是把在不同的时点做的不同的横向分析汇总起来。我们做趋势分析并不是一次就做成的，比如人口普查，每十年就要做一次，如果把一次次的数据汇总起来就可以看出社会的变化。我们对国家、对社会、对任何总体在不同的时间抽不同的样，就是想对总体的趋向有一个了解。比如说人口的增长、教育对人口素质的影响，这些趋势都是我们需要研究的。这些都是通过在不同时间抽不同的样来反映总体的变化，因此趋势分析也叫做重复的横向分析。趋势分析的例子有前面讲过的美国的人口普查、现时人口调查等。只要把这些资料汇总在一起，就能看出美国社会的很多变化。

为什么说这些趋势分析不是真正的纵向分析呢？因为真正的纵向研究是追踪研究。追踪研究是对同一人群（同一样本）在不同时点上做的重复观察。前面的趋势研究是对同一总体取不同的样本，通过不同的样本来反映总体在不同时候的状况，从而看出总体在一段时间内的变化趋势。而追踪研究是对同一个样本的研究，我们抽取的样本没有发生变化，第一次取样后，我们就一直针对这个样本进行研究。由于样本有时候是流动的，这就有跟着原来的样本流动、核实样本的真实性等问题，因此做追踪研究的成本很高，花费很大。但是用高成本来做追踪研究是有回报的，因为追踪研究比汇集的横向研究提供的信息更多，得到的资料更加有效，科学价值更大。利用这些资料，我们可以做出更好、更科学、更可信的研究，这就是我们为什么花这么多金钱和精力去做追踪研究的原因。例如从1972年开始，美国做了一个“全国高中生纵向研究”（NELS）的项目，研究者抽查了一部分在1972年中学毕业的应届学生，然后于1973、1974、1976、1979和1986年分别对第一次抽样调查的那批人进行追踪调查。这是由政府出资、大学学者做的调查，得到的资料共享，谁要用都可以。我的博士论文就用了这个数据，现在我还在用这个数据做关于教育方面的研究。

为了让你们更明白趋势分析和追踪分析得到的数据的差异，我举一个例子来说明（见表6-1）。

表6-1 1970年与1980年男性和女性劳动参与率比较

在所抽样本中，1970年男性有90%有工作，10%无工作；女性50%有工作，50%无工作。而到了1980年，男性85%有工作，15%无工作；女性60%有工作，40%无工作。可见在这10年内，女性的就业率有所增加，也表明女性的社会地位有了提高。这种研究是趋势研究中比较典型的，它是通过横向分析的数据汇总而来的。但是在1980年的数据中有工作的人到底是在1970年就有工作，还是原来没有工作后来找到工作的呢？而1980年没有工作的是1970年有工作的还是1970年就没有工作的呢？这些问题我们从这个表中就得不到解决。因此，趋势分析只是能够看清研究对象的发展趋势，但是它有很大的缺陷，就是无法知道具体个体的变化。这种缺陷怎样才能弥补呢？下面我们来看另一张表（见表6-2）。

表6-2 男性和女性1970年与1980年劳动参与率追踪比较

从这张表中我们就能看到，男性中有80%在1970年和1980年都有工作，5%在1970年没有工作，到了1980年有工作。另外有10%的人在1970年有工作，因为某种原因如退休、失业等，到了1980年就没有工作了。而有5%的人在1970没有工作，到了1980年还是没有工作。在女性中，只有15%的人在1970年有工作，在1980年还有工作。而45%的人在1980年有工作但在1970年没有工作，可见，女性做临时工作的比较多。从这张表中我们就能很清晰地看出具体某个人群就业情况的变化。这种研究是追踪调查中比较典型的，它包含的信息量就比趋势分析得到的信息量要多得多，这就是我们为什么花费很高的成本去做追踪调查的原因。追踪调查比趋势调查能提供更多的信息，并且根据追踪调查你可以推断趋势，因为你能掌握不同个体在不同时间的状况，把这些个体汇总后就是总体的变化趋势。而趋势分析仅仅能够知道研究对象大致的变化趋向，却不知道总体中具体的个体的变化。现在有什么问题，大家可以提。

学生一：我想问一下追踪调查是不是一定要以个人为单位？

谢宇：不一定，这要根据你的分析单位具体而定。如果你的分析单位是组织、家庭等，就不是以个人为单位。因此追踪调查的单位要具体看总体的分析单位而定，并且在调查中分析单位不能变。你要根据你的分析单位来抽样，抽样好了之后就要追踪这些样本，收集他们的信息和资料。

学生二：追踪调查的时间是怎么选定的？

谢宇：这是一个很好的问题，这要根据你对所研究问题的了解。虽然实证性研究很重要，但是理论也很重要，这节课我没有讲。理论就是你对这个现象的了解，你对全部现象的了解综合而成就是你的理论体系。因此对时间的选择关键在于你对这个现象的了解，如果它变化很快，你定的时间就要频繁一点。比如1972年中学应届毕业学生的例子，被调查对象中学刚毕业变化特别大，因此那个调查项目在1973、1974年连续调查了几次。你上不上大学，上大学又上什么专业，毕业后有什么打算，这都是变化很快的，因此要每年都调查，甚至一年调查两次，比如春季学期和秋季学期，看你是否仍在上学。而有些东西的变化就比较慢，如人口的增长，退休后老年人的生活状况，像这些现象就可以间隔较长一段时间做一次调查。所以选定追踪调查时间要看你所要调查的社会现象的变化速度。变化速度较快，前后调查间隔的时间就要较短；变化速度较慢，间隔时间就可以相对长一些。

学生三：如果选择的分析单位是一个群体或一个组织，如果在一段时间内组织内部发生了人员变动，这会不会使追踪调查退化成趋势调查？

谢宇：这是一个比较复杂的问题，这个问题的关键还是要看分析单位是什么，假如分析单位是机构的话，你设计的观察项目和指标就会跟观察个体有所不同。因此你在做机构和组织的追踪调查的时候，你不需要考虑到组织中个体的变化。比如研究企业的，我们就追踪企业的发展变化，看它什么时候诞生，什么时候转型，什么时候破产等。虽然在追踪组织的时候，组织内部的人员结构、个人能力等都会发生变化，但是我们仍然可以把组织作为一个分析单位来追踪。

学生四：追踪研究可以推断出趋势的变化，那它是不是可以代替趋势研究？

谢宇：这个问题很有意思，很多人都认为可以。在人口普查方面，美国可能是较早的不用趋势研究而直接用追踪研究的国家，因为如果你能够对每一个个体都进行追踪的话，就可以不需要趋势研究了。这就有两个问题：一个是成本的问题，追踪研究的成本很高，花费很大，它要比趋势研究贵很多。第二个是追踪研究的对象会有损失，由于很多原因比如研究对象不再愿意被研究，或者是你找不到原有的研究对象等，这些原因就会导致一些追踪调查无法进行下去。所以，你假如要用从留下的人那里得到的资料做一个推广的话，就一定要做一个假设，就是没有被追踪的人可以用已经被追踪的人来代替，可以用统计的方法来推论他们的情况。因为这里需要做一个假设，所以很多统计学家对此不满意。还有一种方法就是不断地补充样本，像一个渠道一样，一定要有源头活水，这样才能保证样本的新鲜性，从而使调查资料更具有科学性。

学生五：这种追踪研究能否反映总体的结构变化？

谢宇：应该是可以的，虽然有一些东西通过追踪调查还是观察不到，但是就趋势调查和追踪调查来讲，理论上而言趋势调查能做的，追踪调查基本上都能做到，只要总体不发生变化。保证了这一点，就可以通过追踪研究来观察总体结构的变化，因为你不仅能够知道总体的变化趋势，还能够知道具体的个体的变化情况，通过对个体的全面了解，你就能够把握总体的结构。

下面我们谈下一个题目，这个题目叫概念化（conceptualization）。概念化是把理论的东西变成可以测量的东西的第一步。我先给它下一个定义，再讲一下概念化的测量维度，然后比较一下这些维度，最后给你们举一个社会学的例子。

概念化是建立并澄清概念的过程，也就是用语言和例子来说明一个概念，以获得一个准确的定义。只有给概念一个准确的定义，我们在研究和讨论问题时才会有一个相同的起点，否则“公说公有理，婆说婆有理”，很难达成共识。因此概念化就是要把不同的观点放到同一个平面上，给它一个定义，这个定义就是一个共同的起点，有了这个起点，其他的研究才可以进行。比如我们研究教育的回报问题，那么什么是教育，上学是教育，实践也是教育，我们就必须对教育有一个很明确的定义，给出一个概念。我们经常把教育定义为在学校获取的知识和得到的培训，这样就可以把教育限定在学校范围内。你在学校里没有得到知识和培训，这不是教育；你在学校之外得到的知识和培训也不算教育。有了这个概念以后对教育的研究才有了一个共同的起点。为了让大家进一步了解概念的含义和测度，我要问你们一个问题：什么是社会地位？划分社会地位的标准是什么？

学生一：社会地位有很多种，一种是根据财富划分的社会地位，一种是根据政治职位，还一种是根据职称，比如教授等，还有可能是根据年龄和血缘关系等，这些都可以用来划分社会地位。

谢宇：你讲的都是具体的标准，但不是概念性的。假如我们从理论角度上去考虑关于社会地位的比较重要的概念，你会想到哪些？

学生二：职业及其社会影响。

学生三：个人在不同社会阶层中的地位。

学生四：社会地位的不同，关键在于划分的标准不同。

谢宇：那么，什么标准比较重要呢？

学生五：占有资源的标准。

谢宇：资源，还有呢？

学生六：声望。

谢宇：非常好。我的观点是，衡量社会地位时，有三个概念很重要。你们的答案可以用这三个来概括：财富、声望和权力。有财富就有社会地位，但是有钱也不是万能的，财富不能涵盖社会地位的所有方面，有的人只是有钱，却没有声望和权力。哈佛的教授工资不是很高，但是他们很有声望，因此声望也是一个很重要的标准。有的人工资不高，声望也不高，甚至有时候还有点糟糕，但是他有很大的权力，这也能给他带来很高的社会地位。这三个标准中的每一个都有不同的表现。比如财富可以是工资收入，可以是不动产，也可以是投资，它们都是财富。但总的来说这三个方面就可以将社会地位的所有方面都概括了。同时这三者含义不同，是不可以互相替代的。有的人有财富但没有声望和权力，有的人有声望但没有权力和财富，有的人有权力但没有财富和声望。当然，很多人想同时拥有这三样东西，但这是很难实现的。

这个例子说明一个理论上的概念可能会有不同的测量维度。维度是为了量化某个概念，为了对概念的总体（而不仅仅是部分）进行分类或区分，而从概念中分解出来的，可以被具体指标衡量的次级概念。一个概念可以包含几个维度，因为有的概念无法通过一个维度来测量。通过概念化，我们就可以将社会地位分解为三个维度：财富、声望和权力。好的维度划分应该既能完整地表达概念各方面的含义，又能避免维度的重复和交叉。当维度不能被直接观察到时，就需要用到指标。指标是很具体的，是可以被直接观察到的，是概念具体的量化标准。比如为了衡量权力，我们可以用这样一些指标：一个是管辖的人数有多少，管辖的人数越多说明你的权力越大。另外一个是管辖权限有多大，管辖的权限越大，你的权力越大。比如系主任管辖的权限就很小，而军官管辖的范围就很大，这就说明系主任的权力较小，而军官的权力很大。衡量权力的指标还包括每年能够制定的预算的多少，你的预算越多，你的权力就越大。尤其是在计划经济时代，预算越多，要的越多，下一次预算就更多，这是计划经济体制的弊端。还有一个衡量权力的标准是你所控制的设施的多少，你掌握的设施越多，你的权力就越大。

下面我们来比较一下概念、维度和指标。这三者在某种情况下是一样的，可以相互转换，比如一个研究对象只有一个概念，这个概念只有一个维度，而这个维度又只有一个指标时，那么它们三者就是一样的。它们的区别就在于概括的层次不同。概念是高度的概括，维度是一般性的概括，而指标是很具体的，可以直接测量，所以这三者的关系就在于具体的程度。有的概念比较简单，比如性别，概念、维度、指标都是性别，只有两种可能（男、女）。而复杂的概念存在多个维度，一个维度又有多个指标。当一个概念只有一个维度，并且这个维度只有一个指标时，这个概念本身就是一个变量。变量是一个统计术语，是指可以取不同数值的量。一般维度和指标都可以是变量。比如权力，可以大也可以小，这就是一个变量；性别，可以是男也可以是女，这也是一个变量。指标是一个操作性的东西，是具体的；概念和维度是比较抽象的东西，具有思想性。

下面我们讲测量。当我们谈到测量的时候，就必然涉及变量和指标。因为变量和指标是很具体的，我们在做测量时必然要引入变量，而变量的测量要通过指标来表示。测量就是给分析单位赋予一个具体的数值，以表示变量的类别和差异。这个数值在不同的情况下表示不同的意义，很多人在这方面会犯错误。测量就是要抓住事物之间的差异，通过一定的指标来衡量这种差异，把研究对象区分开来。前面讲了数字在不同的情况下含义是不一样的，原因是测量的时候有不同的尺度，用不同的尺度测量出来的数值表示不同的意义。

因此我们接下来要讲测度（scales of measurement）的类型。测度的类型有四种：名义测度（nominal scale）、次序测度（ordinal scale）、间距测度（interval scale）和比率测度（ratio scale）。名义测度是根据某些变量，将样本区分成两个或者多个类别，比如你把所有的人分成不同的类——好、中、坏等。名义可以任意赋值，这些数字不代表任何数学意义，比如白人＝1，亚裔＝2，黑人＝3。因为这些数字本身并不代表任何数学意义，它不能用来进行运算，只是起到一个区分的作用。确定分类标准有两个原则：一个是穷尽性，就是每个个体都必须归到其中一类；另一个是互斥性，就是一个个体不能归到两个或多个类别中。测度的第二种类型是次序测度。在次序测度中，赋值只是表示样本取值在一个维度上的排序位置，比如最典型的李克特量表（Likert scale）。事实上，次序测度并没有内在的测度标准，你仅仅知道它们之间的相对排序，不能用来做简单运算。假如你想知道不同测度之间的差距，你就要用到间距测度。间距测度假设数字间有相同的距离或间隔，间距测度的数据不仅表示排序位置，也表示数值。当一个间距测度变量有一个绝对零值时，这个间距测度变量就成了一个比率测度变量。比如重量，它有一个绝对零值，它还有单位，因此重量是一个比率测度变量。

我们来比较一下这四种测度。名义测度只告诉你分类；次序测度不仅告诉你分类，还告诉你各个类型之间的排序；间距测度不仅告诉你分类、次序，还告诉你间距大小；而比率测度则既告诉你分类、排序、间距大小，还告诉你绝对零值。所以这四种测度是由一般向特殊变化的，最一般的是名义测度，所有的研究都是从这里开始，因为最开始我们要根据研究对象的差异分出不同的类别，然后随着研究的深入，测度也要不断地特殊化、具体化。

下面，我们讲估计的基础知识。统计的知识很多，书本上讲的比较简单，但是要探究原因就比较难，所以我想回顾一下估计的基础知识。首先要知道我们做统计是迫不得已的，如果我们可以直接研究总体的话，就不需要样本，也就不需要统计了。因为做统计是用样本来推论总体，如果我们能够直接对总体进行研究分析的话，就可以不需要统计。什么是总体？总体就是在一个封闭的系统中，所有元素的完全排列。样本就是总体中的子群，总体中的任何一个子群都可以叫样本。举一个例子，我住的城市1990年普查的时候有109592个人，我们抽了一个1096个人的样本进行研究。我下一次会讲到具体抽样，在这里暂且不提。现在讲参数与估计。具体而言，我们研究总体就是要研究总体的参数。参数是总体的某个特征，比如中心趋势（central tendency）的测度和离散趋势（tendency of dispersion）的测度等。我们用θ来表示总体参数（population parameter）。这个总体参数是我们永远得不到的，只能通过估计来得到一个比较接近总体参数的估计值。估计是根据样本来推算真实参数，从而得到总体参数的样本估计值，用T表示。样本估计值也被称作样本统计量（sample statistic）。这里有两个名词：一个是总体参数，一个是样本统计量。我们想要总体参数，但是实际中无法得到，我们只能通过样本统计量对它进行估计。比如我们想知道以下这些总体参数，如总体的平均值、总体的方差、总体的相关性、总体的交互表等，我们就可以通过样本统计量来对总体参数进行估计。比如用样本的平均值来估计总体的平均值，用样本的方差来估计总体的方差，用样本的相关性来估计总体的相关性，用样本的交互表来估计总体的交互表。样本统计量是可以计算出来的，通过样本统计量来估计总体参数就叫做统计推论（statistical inference）。统计推论是用来评价样本统计量的可靠性的一种方法。对于任何总体参数都会有许多样本统计量，为了评价样本统计量的好坏，我们要进行统计推论，而要进行统计推论，我们首先必须对总体进行抽样。

最简单的抽样方法就是回置的简单随机抽样。它有几个特点：简单是指总体中每一个元素被抽到的概率是一样的；随机是指按机遇抽取样本；回置就是指抽中的元素要被重新放回总体。回置与否还要看总体和样本的大小，假如样本相对于总体而言很小的话，回置与不回置是没有多大区别的。我举一个例子：在一个封闭的区域内，科学家怎样来估计熊猫的数量。这里使用的是一种我们很常用的方法，叫做“捕捉—再捕捉”的方法。它有一个假设，就是假设捕捉是完全任意的。我们先捕捉一批熊猫，做上记号后放回去，过一段时间后我们再捕捉一批熊猫，看第二次捕捉到的熊猫中有多少是第一次捕捉到的。如果第二次被抓住的熊猫中很多是第一次被抓住的，就说明总数很小；而如果第二次被抓住的熊猫中很少是第一次被抓住的，就说明熊猫的总数很大。假如通过抽样我们得到这样一个数据（见表6-3）：

表6-3 两次随机捕捉熊猫的统计数据

第一次抓了100只，第二次又抓了100只，第二次抓的100只熊猫中有10只是第一次抓到的。我们假设这两次捕捉是独立的，是不相关的，那么两次被抓住的可能性是第一次被抓住的可能性乘上第二次被抓住的可能性。我们假设熊猫总数为N，第一次被抓住的概率是100/N，第二次被抓住的概率也是100/N，而两次都被抓住的概率则是10/N，就有100/N乘上100/N等于10/N，算出来的N就是1000。

然后我们要讲估计值的抽样分布，学习统计中很大的一个障碍就是很多人不了解抽样分布。当我们做统计时，我们并没有观察总体，而仅仅是观察了一个样本。假设我们从一个总体中重复地抽样，所抽取的各个样本是不同的，根据许多次重复的抽样，对同一总体参数的多个样本估计值可以形成一个分布，这就是抽样分布。在实际的操作当中，我们总是把通过统计得到的样本统计值放在抽样分布的中间，认为即便这种分布会发生变化也只是在这个样本统计值左右变化。这种分布是假设性的，因为我们实际上只取了一个样本，只得到了一个样本估计值，而其他的估计值是在假定的重复抽样条件下设想出来的。

我们再来回顾一下抽样设计。第一个是简单随机抽样。它实际上是一个很简单的操作，先给总体中的每一个元素一个数值，然后随机地抽取一部分作为样本，这个过程经常是由计算机来操作的。这种方法与抽奖是一个道理，简单是指每个元素被抽到的概率是一样的。第二种抽样方法是系统抽样（systematic sampling）或叫等距抽样，步骤是先根据总体的规模和样本的规模计算抽样间距，然后对总体的所有元素进行排序，根据抽样间距把总体分成等距的若干部分，在第一个部分中随机抽取一个元素，然后按照抽样间距依次在每个部分中抽取一个元素，这些元素的集合就构成了样本。这种方法比简单随机抽样还简单，但是使用这种方法时要注意一点，即在对总体进行排列时，排列顺序不能与自然排列有关，否则抽出来的样本就不具有代表性。

我要强调的一种抽样方法是分层抽样（stratified sampling）。分层抽样要比简单随机抽样和系统抽样更复杂。但是任何方法都是有得有失的，付出的代价越多得到的回报也就越多。分层抽样虽然复杂，但是它有很多的好处。它保证了抽取的样本对某些重要特征的代表性。比如我们要抽取一个样本容量为100人的样本，假如用简单随机抽样的话，就无法保证样本的性别比。如果我们的研究需要保证男女性别比例相同的话，就要用分层抽样的方法。我们先把总体分成两个子总体，在这个例子中就是先把男性和女性分成两个不同的子总体，然后在每个子总体中随机抽取50个人，这样就保证了样本中男女性别比为1∶1。这种抽样方法的应用很广，在研究不同种族、不同地区、贫富差距等问题时，我们都可以用这个方法来进行抽样。有了分层抽样的基础就可以做过度抽样（oversampling）。过度抽样是指当子总体比例不一致时，在一个子总体中抽样比例大，在另一个子总体中抽样比例小，目的是使样本比例平衡或达到我们想要的比例，因为在总体中它们的比例是不平衡的。比如研究贫困问题，贫困的人在总人口中是少数，如果我们要保证样本中有相对平衡的贫困人和非贫困人，相对于贫困人的子总体而言，我们抽取的贫困人的概率就要比在非贫困人的子总体中抽取相应数量的样本的概率大。这种方法还可以用于民族之间的比较研究。比如汉族人口占中国人口的绝大多数，我们在抽样时可以用过度抽样的方法，增加少数民族样本的人数，使各个组的比例比较平衡，这样就可以增加样本中任何一组的代表性。分层抽样的应用很多，比如在美国，做研究时要分成南方和北方，在中国分成城市和农村，都是为了保证样本特征的代表性。

整群抽样（cluster sampling）与分层抽样是相对应的。它从经济的角度考虑，是为了省钱，但是要省钱就要付出代价，整群抽样抽取的数据质量不高。比如我们对北大学生的经历很感兴趣，在抽样时，非常经济的一种方法就是去随机抽取一个班级，这个班级的所有个体都进入样本，然后对他们进行研究。整群抽样是把总体分成不同的组，然后以组为单位进行随机抽取，抽到的组中的所有元素都进入样本。它跟分层抽样不同，分层抽样是先把总体有目的地分成不同的子总体，然后在每一个子总体中随机抽取样本，这样就保证了样本的代表性。相比之下，整群抽样在分组时没有目的性，从而无法获得样本特征的代表性，因此在这个意义上讲，得到的数据质量就不高。但是整群抽样比较实用，比如你要做一个乡村研究，你不可能在全国各地都抽取一个村庄进行研究，而只能进行整群抽样，虽然样本质量不高，但比较方便，也比较经济。整群抽样获得的样本的有效性较低，是因为整群抽样的样本内部相似性强，致使可用的样本数量降低。为了使整群抽样做得比较好，我们要假设各个群体之间没有很大的差别。假如这个假设不成立，抽取的样本比简单随机抽样有效性低。比如刚才那个北大的例子，我们要使整群抽样做得比较好，就要假设北大学生在班级与班级之间没有很大的差别，他们的知识面、家庭经济条件、朋友关系程度等都比较相似。如果这个假设成立的话，这时整群抽样就不会造成有效性的大幅降低；假如班级与班级之间差别很大，那么整群抽样得到的样本的有效性就会被大大削弱。一般来说，整群抽样只会降低有效性，而不会增加有效性，降低多少，要具体问题具体分析。

我现在更系统地来讲这个问题，探讨一下样本统计量中方差的来源。一个来源是总体差异，一个总体中的各个元素之间是有差异的，总体差异是各元素之间差异的总和。我已经讲过社会现象之间存在的差异性和它存在的必然性，我们社会学研究侧重对这种差异的研究。我们之所以要抽样，就是因为总体内部各元素之间有差异，如果社会现象之间没有差异的话我们就没有必要抽样了。社会科学与自然科学的区别就在于社会科学所研究的社会现象有差异。自然科学可以通过一个典型现象得到真理性的规律，从而举一反三。社会科学则不然，它必须关注社会现实的总体，而总体内部是有差异的，这就要求我们在做研究的时候要进行抽样，从样本来推测总体。既然总体内部有差异，那么哪一个元素被选择、哪一个元素不被选择就会影响到样本，从而影响最后得到的样本参数。具体地说是因为总体中各元素的某一变量值不同，导致了元素之间的差异，因此我们要进行抽样。而抽样是一种随机选择，这种随机选择必然会造成另一种差异，因为你对不同元素的选择会直接影响到样本统计值。

由此可见，样本统计量中方差的来源主要有两个：一个是总体差异，这种差异是客观存在的；另一个是抽样差异，是在对样本进行选择时造成的差异。这种差异其实是由总体差异决定的，因为如果总体之间不存在差异的话，我们就不需要抽样，也就不存在抽样差异。我们可以把总体差异分解成两部分，即组间差异（between-group variance）和组内差异（within-group variance）。组间差异是指各组平均值之间的差异，比如一个班级和另一个班级差在什么地方，就差在平均值上。组内差异是同一组中各元素相对于组平均值的差异。方差分析就是组间差异加上组内差异。对于同一个总体而言，组间差异大的时候组内差异就比较小；而组内差异大的话，组间差异就会比较小。也就是内部异质性越强，外部同质性就越强；内部同质性越强，外部异质性越强。因此分层在这个地方就有很大的作用。在做抽样的时候，通过分层就可以减少抽样方差，因为在对总体进行分层之后再抽样就控制了组间差异，抽样方差就只是组内差异。如果组内元素同质性较强，组内差异也会比较小。各层之间的异质性越强，层内同质性越强，分层得到的精度越大。因此，假如层与层之间差异很大，或者层内部各元素较均匀的时候，我们使用分层抽样得到的效果就会很好。相反，假如层与层之间没有什么差异，分层抽样就没有什么意义。比如做城乡差别的研究，就必须进行分层抽样，因为中国的城乡之间存在很大差异。另外，美国的南方和北方也要分层，它们在经济上、文化上都存在很大差异，如果不分层就不会很精确。

通过分层抽样，引出了设计效应。设计效应就是复杂样本设计的抽样方差与同样规模的简单随机抽样的抽样方差的比值。它是一个比值，那么分层抽样的设计效应会大于1还是小于1呢？因为我们做分层抽样的时候控制了组间差异，这就使得分层抽样的方差会小于简单随机抽样的方差，因此分层抽样的设计效应应该小于1，仅当各层之间无差异时分层抽样的设计效应等于1。而整群抽样的设计效应则会增大抽样方差，因为整群抽样的样本有效性较低，整群抽样的抽样方差会大于简单随机抽样的方差。因此，整群抽样的设计效应会大于1，只有当各群之间无差异时，设计效应才会等于1，整群抽样才不会降低抽样的效率。我们比较一下分层抽样和整群抽样就能看到，假如层间异质性很强，层内同质性也很强，用分层抽样的效果会比较好，精度会比较高。这种情况下，如果用整群抽样的话，就会大大降低抽样的有效性。