显著差异
学习目标问题 1-13 我们如何知道观察到的差异是否可推广到其他人群?
数据是“嘈杂的”。在我们前面提到的实验中,那些停用脸书账户的人患抑郁症的平均数与那些没有停用的人的平均数截然不同,这并不是因为两者之间存在任何真实的差异,只是因为被抽样者的偶然波动。那么,我们能有多大把握推论观察到的差异不是研究样本的偶然结果呢?我们可以探寻差异的可靠性和统计显著性,以此作为指导。这些推论统计能够帮助我们确定观察结果是否可用于推广到更大的样本总体(被研究群体中的所有人员)。
观察到的差异在什么情况下是可靠的?
根据样本进行推广时,我们应该牢记三个原则:
1.代表性样本优于偏态(非代表性)样本。归纳的最佳依据不是那些特殊而深刻的案例,而是代表性案例。科学研究从来不会对整个人类总体进行随机抽样。因此,要牢记一项研究的样本人群类型。
2.低变异性观察结果比高变异性观察结果更可靠。正如前文所述,某篮球运动员的每场比赛得分都十分稳定,基于低变异性数据的平均数更可靠。
3.研究案例越多越好。一位求学心切的准大学生前往两所大学参观,各用了一天时间。在第一所大学,该学生随机听了两堂课,发现两位老师都非常幽默,很有吸引力;而在第二所大学,抽取的两位老师似乎都很沉闷,没有吸引力。回到家后,他没有发现每个院校只抽查两名老师的样本规模太小,而是和朋友们聊起了第一所学校的“好老师”和第二所学校的“无聊家伙”。同样,我们知道这一点,却也常常忽略了它:基于多数案例的平均数要比仅基于少数案例的平均数更可靠(变异性更低)。发现小规模学校在办学最成功的学校中占比极高后,一些基金会立马投资将大规模学校拆分为小规模学校,却没有意识到小规模学校在办学最失败的学校中占比也极高,因为学生较少的学校办学成果变化更大(Nisbett, 2015)。同样,研究案例较多时,平均数会更可靠,研究也会更具可复制性。
要记住的一点:聪明的思考者不会受一些逸事的影响。基于少数非代表性案例的概括是不可靠的。
观察到的差异在什么情况下具备显著性?
假如你对攻击性测试中男性和女性的得分进行了比较,发现男性表现得比女性更具攻击性。但每个个体都是不同的,你观察到的性别差异只是一种偶然情况的可能性有多大?
研究人员会采用统计方法来回答这一问题。统计测试首先假设被研究的群体之间不存在差异,这一假设称为零假设。通过统计数据,我们可以得出结论,观察到的性别差异太大,不太可能符合零假设。因此,我们会放弃零假设(不存在差异),认为这个结果具有统计显著性(statistically significant)。这一巨大差异为备择假设提供了支撑。备择假设即被研究的群体(如男性和女性)之间在某方面(如攻击性)确实存在差异。
统计显著性:假设被研究的群体间不存在差异的情况下,某一结果(如样本间差异)为偶然发生的可能性。
两组之间的差异大小(效应量大小)是如何决定统计显著性的呢?首先,如果两个样本的平均数都是对各自群体的可靠测量(如每个样本都基于多数低变异性观察结果),那么这两个样本之间的任何差异都更可能具有统计显著性。就上述例子而言,女性和男性攻击性测试得分的变异性越低,我们对观察到性别差异的真实性就越有把握。样本平均数之间的差异很大时,只要样本是基于多次观察的结果,我们同样会对这一差异反映了两个群体间的真正差异更有把握。
简而言之,样本规模以及样本之间的差异较大时,我们就可以说这样的差异具有统计显著性,这意味着我们观察到的差异可能不只是样本之间的偶然变异,并且我们也可以放弃零假设。
心理学家对统计显著性的判断非常保守,他们就像陪审团一样,在证明被告有罪之前必须假定其无罪。许多心理测试会给定p值,这一数值是给定样本数据的情况下零假设为真的概率。对于大多数心理学家来说,排除合理怀疑的证明没有多少意义,除非零假设为真的概率(p值)小于5%(p < 0.05)。而一些研究人员认为,统计显著性被过分强调了,“不显著的”结果并不意味着组间差异完全不存在(正如人们经常假设的那样)(Amrhein et al., 2019),它只是表明了更大的不确定性。目前,许多心理学家仍在继续使用p < 0.05的原则,但我们要对此保持关注。
在学习如何做研究时,我们应该牢记,即使样本足够大或足够同质,各研究群组之间的差异仍可能具备“统计显著性”,却没有什么实际意义。它们在统计学上是“显著的”,但效应量很小。对数十万头生子和后生子的智力测试分数进行比较,发现头生子的平均分数要高于后生的兄弟姐妹,这一趋势十分显著(Rohrer et al., 2015; Zajonc & Markus, 1975)。但是,由于这些分数的差别很小,这一“显著”差异产生的效应很小,没有什么实际意义。
要记住的一点:统计显著性只表明在零假设为真的情况下某结果偶然发生的可能性,但并不说明该结果具有任何重要性。
自问
你有被写作者或演讲者尝试用统计数字欺骗的经历吗?在这一章中你学到的哪些知识对今后避免上当最有帮助?
检索练习
RP-3 你能解决这个难题吗?
密歇根大学学生办公室发现,在第一学期结束时,通常有约100名文科和理科学生拿到满分。然而,能够以满分毕业的学生只有大约10至15名。你认为对这一现象最可能的解释是什么(Jepson et al., 1983)?
RP-4 _____统计总结数据,而_____统计则决定了数据是否可被推广到其他群体。
答案见附录D
[1] 样本标准差公式:样本标准差=。