特沃斯基精要
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 不确定状况下的判断——启发式和偏差

阿莫斯·特沃斯基

丹尼尔·卡尼曼

很多决策都是基于对不确定性事件发生概率的信心,如选举的结果、被告的罪行、美元未来的价值。人们通常会通过这些形式来表达这种信心:“我认为……”“概率是……”“……这不太可能”。通常,对于不确定性事件的信心会以概率或主观概率的数字形式显现。那么,这些信心的决定因素是什么?人们如何评估不确定性事件的概率或不确定量的价值?本章的主题就是人们如何基于有限的启发式规则,将评估概率和预测价值的复杂任务简化为决策判断。通常,这些启发式非常有用,但有时它们也会导致严重的系统性误差。

对概率的主观判断与对距离、大小等物理量的判断相似。这些判断都基于效度有限的数据,而这些数据都是通过启发式规则进行处理的。例如,一个物体的视觉距离与它的清晰度有关,清晰度越高,视觉上就越近。这种规则有一定的效度,因为在任何一个情景中,较远的物体在视觉上的清晰度都低于较近的物体。但是,对这种规则的依赖会导致在距离判断上出现系统性误差。具体来说,就是在视线较差的情况下,由于物体的轮廓变得模糊,距离往往会被高估。相对地,当视线较好时,由于物体可以被更清晰地看到,距离就容易被低估。因此,这种以模糊程度为线索的方法会在距离判断中导致特征性偏差。与启发式规则有关的系统性误差常常出现在对概率的直觉判断中。在下文中,我们将对3种用于概率判断和预测价值的启发式进行描述,同时还会列举这些启发式导致的偏差,并对这些观察结果的理论与现实意义进行阐述。

代表性

人们关注的很多概率问题都属于以下问题中的一种:A物属于B类的概率有多大?A事件是由B过程导致的概率有多大?A过程产生B事件的概率有多大?在回答这些人们通常依赖于代表性启发式判断的问题时,概率是由A在多大程度上可以代表B来决定的,即A与B之间的相似程度。例如,当A对于B来说颇具代表性时,人们就会认为A由B产生的概率很高。而如果A和B不相似,人们就会认为A由B产生的概率很低。

为了说明人们在判断中使用了代表性启发式,我们可以参考这样一个事例。一个人的前邻居对他的印象是这样的:“史蒂夫非常害羞内向、乐于助人,但是他对现实世界和与人交往没有什么兴趣。他是一个谦恭且喜欢整洁的人,他需要的是秩序和组织结构,很注重细节。”那么,人们认为史蒂夫从事如农夫、销售员、飞行员、图书管理员、医生这样的职业的概率有多大呢?如果将这些职业以最可能到最不可能的顺序进行排列,人们会如何排序呢?根据代表性启发式,史蒂夫是一名图书管理员的概率取决于他自身的代表性程度或与图书管理员的刻板印象的相似性程度。事实上,针对这类问题的研究表明,人们在通过概率进行职业排序和通过相似性进行职业排序时使用的方法是一样的(Kahneman & Tversky,1973)。正如我们在下文中将要呈现的那样,这种判断概率的方法会产生严重的误差,因为相似性或代表性不会被那些应该会影响概率判断的因素所影响。

对结果的先验概率不敏感

对代表性没有影响但对概率判断来说非常重要的因素之一就是结果的先验概率,或可称之为基率的频率(base-rate frequency)。例如,在史蒂夫这个例子中,事实上在人口职业结构中,农夫的比例要比图书管理员大得多,因此对史蒂夫职业的合理推断应该是农夫而非图书管理员。但是,考虑到基率的频率,它并不影响史蒂夫与图书管理员和农夫的刻板印象的相似性。如果人们通过代表性进行概率判断,那么先验概率就会被忽略。这个假设在一个先验概率被显著操纵的实验中得以验证(Kahneman & Tversky,1973)。在这个实验中,被试看到了一些人的简短人格描述,研究人员声称这些人是从由工程师和律师组成的100人样本中随机抽取的。被试被要求根据每份描述来判断某个人是工程师而非律师的概率。在一个实验条件下,被试被告知这些人来自由70个工程师和30个律师组成的样本;而在另一个实验条件下,被试则被告知样本是由30个工程师和70个律师组成的。在工程师占多数的第一个实验条件下,任何特定描述属于工程师而非律师的可能性都高于律师占多数的第二个实验条件。具体来说,通过贝叶斯法则(Bayes’ rule),这些可能性之比可以表示为(0.7/0.3)2=5.44。但这个实验的结果却明显违反了贝叶斯法则,两组被试的概率判断基本相同。很显然,被试在判断某一描述是工程师而不是律师的可能性时,依据的是这一描述在多大程度上符合这两种职业的刻板印象,而很少甚至完全没有考虑两种类型的先验概率。

但是,如果人们完全没有其他信息,就会正确地运用先验概率。在没有人格描述的情况下,他们在两种基率条件下对某一个体是工程师的概率判断分别为0.7和0.3。然而,一旦引入描述,先验概率就完全被忽视了,即使这些描述完全没有信息含量。对以下描述的反应则说明了这种现象:

迪克是一位30岁的男性,已婚,没有孩子。他能力出众,能动性强,他有能力在自己的领域获得巨大的成功。他的同事都很喜欢他。

在这一描述中没有包含任何可以用来判断迪克是工程师还是律师的信息。也就是说,如果没有给定任何相关描述,迪克是工程师的概率应该与该组中工程师的比例相等。但是,无论组内的工程师比例是0.7还是0.3,被试认为迪克是工程师的概率都是0.5。很显然,人们在毫无线索和面对毫无价值的线索时的反应完全不同。当没有具体的信息时,先验概率得到了正确的运用;当引入没有价值的信息时,先验概率完全被忽视了(Kahneman & Tversky,1973)。

对样本量不敏感

为了评估从特定人群中抽取样本而得到的特定结果的概率,人们通常会运用代表性启发式。也就是说,他们会通过抽样结果和相关参数(如所有男性的平均身高)的相似性来对样本结果的可能性进行评估,如包含10个男子的随机样本的平均身高约为1.83米。样本统计量和总体参数的相似性并不取决于样本的大小。因此,如果通过代表性启发式来进行概率判断的话,那么样本统计量的判断概率就会基本上与样本量无关。的确,当被试评估不同大小的样本的平均身高分布时,他们得出的结论是一样的。例如,人们认为对于1 000人、100人和10人的样本来说,平均身高超过1.83米的概率是一样的(Kahneman & Tversky,1972)。而且,即使在问题描述中强调了样本量的大小,被试也会忽略其影响。我们可以考虑以下问题:

某个小镇有两家医院。在较大的那家医院里,每天有45个孩子出生,而在较小的那家医院里,每天有15个孩子出生。已知大约50%的孩子是男孩。但是,每天出生的男孩的具体比例不同,有时高于50%,有时低于50%。在某一年,每个医院都记录了新生儿中男孩比例高于60%的天数。那么,你认为哪家医院记录的天数更多?

· 较大的医院(21)

· 较小的医院(21)

· 两者大约相同(即比例之差在5%以内)(53)

括号里的值表示选择这一选项的大学生人数。

大多数被试认为两家医院男孩的出生率高于60%的概率是一样的,可能是因为这些事件是以相同的统计量进行描述的,因此它们在总体参数上具有相同的代表性。相比之下,抽样理论表明,在较小的医院中,男孩出生率高于60%的天数大于较大的医院,因为相对较大的样本其偏离50%的可能性更低。这一统计学基本概念显然并不存在于人们的直觉之中。

这种对样本量的不敏感已经在“后验概率”(posterior probability)的判断中得到了验证;也就是一个样本是从某个总体而非另一个总体中抽取的概率。请参考这个案例:想象一个罐子里装满了球,其中2/3的球是一种颜色,另外1/3的球是另一种颜色。某个人从这个罐子里取出5个球,发现其中4个是红色的,1个是白色的;另外一人从里面取出20个球,其中12个是红色的,8个是白色的。那么,这两个人中的哪一个人会更有信心认为:罐子里有2/3的红球和1/3的白球,每个人会给出什么样的概率?

在这个问题上,假设先验概率相等,那么对于红白球数量比为4:1的样本来说,正确的后验概率是8:1,而对于数量比为12:8的样本来说则是16:1。但是,大多数人认为第一个样本为罐子里多数是红球的假设提供了更有力的证明,因为第一个样本中红球所占的比例比第二个样本中的大。再强调一次,人们的直觉判断是由样本比例决定的,而基本不受样本量的影响,但后者在决定后验概率中起到了至关重要的作用(Kahneman & Tversky,1972)。而且,对后验概率的直觉判断远没有正确值那么极端。对证据产生的影响的低估已经多次出现在这类问题的判断中(Edwards,1968;Slovic & Lichtenstein,1971)。这一现象被称为“保守主义”。

对概率的误解

人们总是希望由随机过程产生的一系列事件可以表示这一过程的基本特征,即使这一系列事件出现的时间很短。例如掷硬币,人们认为序列“正反正反反正”比看上去似乎并非随机出现的序列“正正正反反反”出现的可能性更大一些,并且也比序列“正正正正反正”出现的可能性更大,因为后者并不能体现掷硬币的合理性(Kahneman & Tversky,1972)。因此,人们总希望随机过程的基本特征不仅可以在整个过程中得到体现,而且也可以在每个部分得到局部体现。但是,一个局部具有代表性的序列会系统性地偏离人们对概率的预期:因为它的变化太多,但运行次数又太少。另一个相信局部代表性的结果就是大家熟知的“赌徒谬误”(gambler’s fallacy)。例如,如果人们看到赌博轮盘上在很长的一段时间里总是出现红牌,那么大多数人会错误地认为下一轮就会出现黑牌。这可能是因为黑牌的出现比另一张红牌的出现更能形成具有代表性的序列。概率通常被认为是一种自我矫正的过程,其中一个方向上的偏差会产生相反方向的偏差来恢复平衡。事实上,偏差并没有随着随机过程的展开而得到“纠正”,而仅仅是被稀释了。

对概率的误解并非仅限于那些没有经过专业训练的被试。一项针对经验丰富的学术型心理学家的研究(Tversky & Kahneman,1971)表明,存在着一种可以被称为“小数定律”(law of small numbers)的统计直觉,也就是即使是小样本也能高度代表其所在的总体。这些科研工作者的回答反映了一种预期:一个关于总体的有效假设可以由一个样本的具有统计学意义的显著结果来表示,而很少考虑这个样本的大小。因此,研究人员过于相信小样本的结果,并且在很大程度上高估了这种研究结果的可复制性。在实际的研究过程中,这种偏差会导致所选择的样本量不足,以及对研究结果的过度诠释。

对可预测性不敏感

人们有时会面临一些需要进行数值预测的情况,如预测未来的股票价格、某个商品的需求量或者某一场足球比赛的结果。这一类的预测通常会依赖于代表性。例如,假设一个人被要求通过一家公司的相关描述预测这家公司未来的利润。如果对这家公司的描述非常利好,那么高利润似乎更符合这种描述的代表性;如果描述相对一般,那么中等利润似乎最有代表性。现在,假设对这家公司描述的利好程度不受该描述可信度的影响,也不受其在多大程度上能形成准确预测的影响。如果仅凭相关描述的利好程度来进行判断,那么人们在预测时就会对线索的可信度和预测的准确性不敏感。

这样的决策模式违背了基本的统计理论,因为预测的极值和范围是由可预测性的考虑因素所控制的。当可预测性为零时,在所有情况下都应做出相同的预测。例如,如果公司的相关描述并不能提供与盈利有关的信息,那么所有的公司利润预测值就应该是一样的(如均值)。当然,如果可预测性非常高,预测值就会与真实值相匹配,因此预测的范围就会与现实结果的范围相等。总的来说,可预测性越高,预测值的范围就越广。

一些关于数值预测的研究已经表明,直觉的预测会违背这一原则,而且被试很少或者根本没有考虑到可预测性这一问题(Kahneman & Tversky,1973)。在其中一项研究中,被试被要求阅读几个段落,每个段落都描述了某个实践课程中的师生表现。一些被试被要求以百分数来“评价”描述中的课程相较于某一特定总体的质量。其他的被试则被要求“预测”每对师生在完成实践课程5年之后的发展状况,也是以百分数的方式进行打分。被试在这两种条件下所做出的判断其实是一样的。也就是说,对于长远标准的预测(5年后是否成功)与对这些预测所基于的信息(实践课程的质量)的评价相一致。这些进行预测的被试当然知道:仅凭一次5年前的课程来预测教学能力(好坏/影响)是远远不够的,其可预测性非常有限。但是,他们的预测却与他们的评价一样极端。

效度错觉

正如我们所看到的,人们经常通过选择最具代表性的信息(如对一个人的描述)来预测结果(如职业)。他们对自己做出的判断的信心主要是基于代表性的程度(如选择后的结果和输入信息的匹配程度),而很少考虑甚至不考虑那些会影响预测准确度的限制性因素。因此,当人们看到一段极为符合图书管理员刻板印象的描述时,就会非常自信地判断这个人的职业是图书管理员,即使这些描述提供的信息非常有限,甚至是不可信的、过时的。由于预测结果与输入信息十分相符而产生的毫无根据的信心,被称作“效度错觉”(illusion of validity)。甚至在做判断的人已经知道限制预测准确度的因素存在的情况下,这种错觉仍会出现。我们经常可以观察到,那些进行遴选访谈的心理学家通常对自己的预测非常自信,即使他们知道有大量的文献表明遴选访谈存在非常多的错误。尽管遴选访谈一再被证明有不足之处,但心理学家仍然依赖这一方式进行选择,这充分说明了效度错觉的影响之大。

输入信息形式的内部一致性(如一系列测试分数),是人们在基于这些信息进行预测时保持信心的主要决定因素。因此,人们在预测一个第一学年成绩全部为B的学生的期末平均成绩时,要比预测成绩中有A和C的学生更有信心。当输入变量高度相关和冗余时,我们就会观察到高度一致的形式。因此,人们常常会对基于冗余输入变量的预测更自信。然而,相关统计的一个基本结论表明:假如输入变量有稳定的效度,当它们之间相互独立而非相关时,基于这些输入的预测可以达到更高的准确度。因此,输入信息之间的冗余虽然能增强预测信心,却会降低准确度,而人们往往对很可能会出现错误的预测更自信!(Kahneman & Tversky,1973)

对回归的误解

假设有一大群孩子都接受了两个等效版本的能力测试(我们可称之为测试1和测试2)。如果研究人员从测试1中挑选10个表现优异的孩子,让其参加测试2,会发现他们在测试2中的平均表现有些令人失望。与之相反,如果你是从测试1中挑选10个表现最差的孩子参加测试2,会发现他们在测试2中的总体表现要更好。将上述情形推广开来,我们可以假设有两个变量XY,它们有相同的分布。如果挑选一组人,他们在X变量上的均值偏离了k个单位,那么他们在Y变量上的均值的偏离程度一定小于k。这些观察结果说明了一种普遍存在的现象,即均值回归,这一现象由英国统计学家弗朗西斯·高尔顿(Francis Galton)在一百多年前首次提出。

在日常生活中,我们会遇到很多均值回归的例子。例如,父子的身高、夫妻的智商,以及一个人连续多次考试的成绩等。但是,人们并没有形成对于这一现象的正确直觉。首先,在很多必然会出现回归现象的领域,人们并不期待看到它。其次,当人们意识到了回归现象的出现时,通常会得出荒谬的因果解释(Kahneman & Tversky,1973)。我们认为回归现象仍然是很难捉摸的,因为它与人们秉持的“结果应该在最大程度上代表着输入信息”这一信念无法兼容,所以结果变量的值应该和输入变量的值一样极端。

意识不到回归的重要性会带来致命的后果,正如我们在之前提到的各种现象(Kahneman & Tversky,1973)。在一次有关飞行训练的讨论中,有经验的飞行教练发现:如果在学员顺利降落后对其进行表扬,他接下来的表现通常都会不好;而在学员艰难降落后对其进行严厉的批评,他下一次的表现则会有所提升。因此飞行教练得出了结论:口头奖励对于训练来说没有好处,而口头批评则是有益的。这与公认的心理学原理完全相悖。飞行教练的这一结论并不可靠,因为存在均值回归现象。与其他重复性测试一样,即使飞行教练对学员首次的训练不作反应,后者在一次糟糕的表现后通常都会有更好的表现,而一次出色的表现之后往往也会出现表现变差的情况。仅因为飞行教练在学员表现好时表扬了他们,而在表现糟糕时批评了他们,飞行教练就得到了错误且有潜在危害的结论:惩罚比奖励更有效。

因此,不理解回归的意义会让一个人高估惩罚的效用而低估奖励的效用。在社会互动,如有意识的训练中,表现好时通常才会得到奖励,而表现差时往往会受到惩罚。因此,仅通过回归分析就可预测,表现最有可能在惩罚之后有所提升,而在奖励之后有所下降。人类的状况就是这样:在得到奖励之后表现下降,在受到惩罚之后表现提升,这些都只是偶然事件。人们通常没有意识到这种偶然性。事实上,回归在决定奖惩结果中的作用非常隐晦,似乎没有引起这一领域的学生的注意。

可得性

在某些情况下,人们会通过回忆起一类或一件事的难易程度来评估这类事件发生的频率或可能性。例如,一个人可能会通过回想自己熟悉的人突发心脏病的情况来评估中年人突发心脏病的风险。类似地,一个人在预测某种投资行为失败的概率时,可能会通过想象这一过程中遇到的各种困难来进行评估。这种判断启发式被称为“可得性”。可得性是评估频率或概率的有用线索,因为一般来说,与频率较低的类别相比,人们更容易回想起频率较高类别中的案例。然而,可得性也会受到频率和概率之外的其他因素的影响。因此,依赖可得性会产生预测偏差,下面我们来举例说明其中的一些偏差。

实例的可检索性产生的偏差

当一类事件的发生频率要根据其实例的可检索性来判断时,在发生频率相等的情况下,人们会认为其实例更容易被想到的类别,比其实例更不容易被想到的类别更大。研究人员通过一个简单的实验展示了这一效应的影响。被试听到了一份包含知名人士的名单,名单中既有男性也有女性。他们随后被要求对这份名单是否包含更多男性进行判断。每组被试听到的名单内容不同。在一些名单中出现的男性比女性更知名,而在另一些名单中,情况恰好相反。但每一组被试都错误地认为由更知名的人物组成的类别中包含的男性更多(Tversky & Kahneman,1973)。

除了熟悉度以外,还有其他因素会影响实例的可检索性,如显著性。例如,看到房子着火对此类事故的主观概率的影响,可能比在当地报纸上读到火灾新闻的影响更大。此外,人们会认为最近发生的事件可能比较早的事件更容易发生。当人们看到路边有辆车发生了侧翻,那么对于发生交通事故的主观概率会暂时提高,这可能是一种普遍存在的现象。

搜索集的效度带来的偏差

从英语文本中随机抽取一个由3个以及3个以上字母构成的单词。这个单词更可能以r开头,还是r更有可能为其第3个字母?人们的解决方式通常是先回忆以r开头的单词(如road)和第3个字母是r的单词(如car),然后根据能轻松回忆起这两种单词的数量进行判断。由于根据第1个字母检索单词比根据第3个字母检索单词容易得多,所以大多数人会做出判断:以某个辅音字母开头的单词比该辅音字母出现在第3个位置的单词更多。即使事实上这些辅音字母(如r或k)更常出现在第3个位置而不是开头,人们依然会做出同样的判断(Tversky & Kahneman,1973)。

不同的任务会引发不同的搜索集。例如,假设有人要求你对抽象词(如思想、爱)和具体词(如门、水)出现在书面用语中的频率进行判断。回答这个问题的一种自然方法就是搜索该词可能出现的上下文。我们似乎更容易想到一个包含抽象词而非具体词(如门)的语境,如爱情故事中的“爱”。如果词语出现的频率是根据其出现的语境的可得性来判断的,那么人们就会认为抽象词多于具体词。最近的一项研究发现了这种偏差,该研究表明:人们认为抽象词出现的频率比具体词要高得多,虽然事实上两者具有相同的客观频率(Galbraith & Underwood,1973)。人们也认为抽象词通常比具体词出现的语境范围更广。

可想象性偏差

有时候,人们必须评估脑海中没有存储相应实例的类别的频率,此时可以根据一些给定的规则进行评估。在这种情境中,人们通常会构造很多实例,并根据构造相关实例的难易程度进行频率或概率的估计。但是,构造实例的难易程度并不总能反映它们实际发生的频率,而且这种评估模型很容易出现偏差。为了对其进行说明,我们可以想象一个由10人构成的小组,该小组有一个由k个人组成的委员会,且2≤k≤8。那么,这个委员会有多少种不同的组成方式?这个问题的正确答案是由二项式系数行内图给出的,当k=5时为最大值252。显然,含有k个成员的委员会数量与含有(10-k)个成员的委员会数量相等,因为如果其中的k个成员组成了一个委员会,那么唯一剩下的(10-k)个成员自然而然也可以组成一个委员会。

不用计算就能回答这个问题的一种方法是,在心里构造一个由k个成员组成的委员会,并根据想到的案例的难易程度来评估其数量。由较少成员组成的委员会(如2个人),比由更多成员组成的委员会(如8个人)更容易被想到。构建这个委员会最简单的方法,就是将他们划分为不相交的多个小组。很明显,建立起5个由2个成员组成的委员会非常容易,但由8个成员组成的委员会最多只能有1个。因此,如果频率是通过可想象性或可得性来评估的话,小规模委员会显然比大规模委员会出现的次数更多,这与完全对称的钟形曲线(正态分布)相反。事实上,当被试被要求估计不同规模委员会的数量时,他们的估计是一个与委员会规模相关的单调递减函数(Tversky & Kahneman,1973)。例如,2人委员会数量估计的中位数为70,8人委员会数量估计的中位数为20(两种情况的正确答案都是45)。

在现实生活中,可想象性在概率评估过程中起着重要的作用。例如,探险活动存在的风险是通过想象无法应对的偶然事件来评估的。如果用这种方法描绘探险中遇到各种危险的概率,你就会发现探险会显得极其危险,但事实上,你能快速想到灾难事件并不能准确反映它实际发生的可能性。相反,如果一些可能的危险很难被想到或者根本想不到,那么该活动面临的风险就会被严重低估。

错觉相关

心理学家洛伦·查普曼(Loren Chapman)和琼·查普曼(Jean Chapman)描述了我们在判断两个事件同时发生的频率时的一个有趣偏差(Chapman & Chapman,1967)。他们向没有统计知识的被试展示了几个假想的精神疾病患者的信息。每个精神疾病患者的数据都包含了一份临床诊断报告和一幅患者的画像。然后,研究人员要求被试判断每次的诊断结果(如偏执或多疑)中包含画像中各种特征(如奇特的眼睛)的频率。被试明显高估了自然联想事件同时发生的频率,如多疑和奇特的眼睛。这种效应被称为“错觉相关”(illusory correlation)。在对所接触数据的错误判断中,缺乏经验的被试“重新发现”了画人测验(the draw-a-person test)中存在的许多常见但毫无根据的临床知识。错觉相关效应对相互矛盾的数据具有极强的抵抗性,甚至当症状和诊断结果实际上负相关时,它也会令判断者难以发现其中存在的真实关系。

可得性为错觉相关效应提供了一种自然的解释。判断两个事件同时发生的频率可以依据它们之间存在的关联性的强度。当关联性很强时,人们可能会得出这样的结论:这些事件经常是成对出现的。因此,强关联体通常被判断为同时发生。根据这一观点,被试之所以会在多疑与画像中奇特的眼睛之间做出错觉相关,是因为与身体的其他部位相比,多疑更容易与眼睛相关联。

人生经验告诉我们,一般情况下,相比于低频率类别中的实例,人们更容易想到高频率类别中的实例;那些发生概率更高的事件也比不可能发生的事件更容易被想到;而事件之间的关联性在事件经常同时发生时会得到加强。因此,在估计某一类别的数量、事件发生的可能性或多个事件同时发生的频率时,人类有一套自己的评估程序,同时还有检索、构造或联想等心理操作。然而,正如前文案例所示,这种有价值的评估程序会受到系统性误差的影响。

调整和锚定

在很多情况下,人们会从一个初始值开始进行估算,然后通过调整得到最终答案。初始值或起始点,可以在问题描述中得到,也可以通过部分演算得到。无论初始值的来源是什么,调整通常都是不够的(Slovic & Lichtenstein,1971)。也就是说,不同的初始值产生了不同的估计值,这些估计值会偏向于初始值。我们称这种现象为“锚定”。

调整不足

在一个锚定效应的例子中,研究人员要求被试用百分比形式估计各类事物的概率,如联合国中非洲国家占比情况。每个问题的起始值为0~100,由被试面前转动的轮盘所决定。被试需要判断给定的(任意)初始值过高或过低,然后通过向上或向下调整来给出他们的最终估计值。对于每个问题,不同组得到的初始值不同。这些随机获得的初始值对人们的估计值有着显著影响。例如,在初始值为10%和65%的两个组中,他们对于非洲国家在联合国中所占比例的估计中位数分别为25%和45%。给予被试更多的奖励,也无法降低锚定效应。

锚定效应不仅发生在初始值给定的情况中,而且在被试根据一些不完整计算的结果进行估计时,也会产生锚定效应。对直观数值估计的一项研究说明了这种效应。两组高中生被要求在5秒内对黑板上的一组数字的乘积进行估算。其中一组需要估算8×7×6×5×4×3×2×1的值,另一组需要估算1×2×3×4×5×6×7×8的值。为了在5秒内快速回答这些问题,人们可能会通过推定和调整来进行计算和估计。因为调整通常是不足的,所以这个过程应该会导致被试得出过低的估算结果。此外,由于按降序排列的那组数字前几步相乘(从左到右)的结果,比按升序排列的那组数字前几步计算得到的结果更大,因此人们对前一组数字的估算结果应该比后一组数字更大。这两项预测都得到了证实。升序组估算结果的中位数为512,而降序组估算结果的中位数为2 250。正确答案为40 320。

合取与析取事件评估中的偏差

在最近的一项研究中,被试可以对几类事件中的一类进行投注(Bar-Hillel,1973)。该研究使用了3类事件:(1)简单事件,如从一个红球和白球各占50%的袋子里取出红球;(2)合取事件,如从一个红球占90%白球占10%的袋子里,连续7次取出红球(每次取出球后再放回袋子里);(3)析取事件,如从一个红球占10%白球占90%的袋子里,连续7次取球至少有一次取出红球(每次取出球后再放回袋子里)。在这个问题上,绝大多数被试都倾向于在合取事件上投注(概率为0.48),而不是概率为0.50的简单事件。被试也更愿意投注简单事件而非析取事件,虽然后者的概率为0.52。也就是说,大多数被试在两两比较中都选择了概率更小的选项。这种选择模式说明了一种普遍现象。针对投注和概率判断的研究表明,人们往往会高估合取事件的概率(Cohen,Chesnick & Haran,1972)而低估析取事件的概率。这些偏差很容易被解释为锚定效应。基本事件的初始概率(如在任何一个阶段的成功)都为合取事件和析取事件概率的评估提供了一个天然的起点。因为从起点进行调整通常是不足的,在这两种情况下,最终评估都与基本事件的概率保持接近。请注意,合取事件的总体概率低于各个基本事件的概率,而析取事件的总体概率高于每个基本事件的概率。由于锚定效应,合取事件的总体概率会被高估,而析取事件的总体概率则会被低估。

评估复合事件时的偏差在制订规划的情境下尤为明显。成功地完成一项事业(如新产品的开发)通常有一个合取性的特征:为了取得成功,一系列事件中的每一步都要获得成功。即使这些事件中的每个子事件发生的概率都很高,如果子事件的数量巨大,获得整体成功的概率也会很低。人们往往会高估合取事件的概率,这会导致在没有依据的情况下做出过于乐观的评估,如对一项计划成功的可能性或一项工程准时完工的可能性的盲目乐观。相反,析取结构通常会用于风险评估。对于复杂系统(如核反应堆或人体)来说,任何基本组件的失效都会导致机能故障。即使每个组件失效的概率都微乎其微,如果涉及大量的组件,整个系统失效的概率也会很高。由于存在锚定效应,人们会倾向于低估复杂系统中的故障概率。因此,锚定偏差的方向有时可以从事件的结构中推断出来。合取事件的链状结构会导致高估,而析取事件的漏斗状结构则会导致低估。

主观概率分布评估中的锚定

人们出于很多目的(如后验概率计算、决策理论分析),需要以概率分布的形式来表达其对某个量(如某一天的道琼斯指数)的信心。这样的分布通常是以这样的方式构建的:让人们选择一个数值,让它与能代表自己的主观概率分布的具体百分位数相对应。例如,被试被要求选择一个数字X90,来表示他认为这个数字高于道琼斯指数的主观概率为0.90。也就是说,他选择X90即愿意以9:1的赔率在道琼斯指数不超过X90时进行赔付。道琼斯指数的主观概率分布可以由这样几个对应着不同判断的百分位数构造而成,如X10X25X75X99等。

通过收集很多不同值的主观概率分布,可以测试人们在判断中进行的适当校准。在某一系列问题中,如果评估量的真实值的П%恰好低于被试设定的XП值,那么这个判断就完成了适当的校准。例如,有1%的量的真实值应低于X01,还有1%的量的真实值高于X99。因此在98%的问题上,真实值的置信区间为X01X99

研究人员已经从大量的判断中得到了许多量的概率分布(Alpert & Raiffa,1969;Staeël von Holstein,1971;Winkler,1967)。这些分布表明其与合适的校准值之间存在很大的系统性偏差。对于大多数研究,在30%的问题中评估量的实际值小于X01或大于X99。也就是说,被试设定的置信区间过于狭窄,其反映的确定性超过了基于相应知识得出的合理范围。对于没有统计学知识的人和非常复杂的对象来说,这种偏差是很常见的,而且即使引入可以刺激外部校准的评分规则,这种偏差也是无法消除的。这种效应可以部分归因于锚定。例如,若要选择X90作为道琼斯指数的值,首先人们会很自然地先想到自己对道琼斯指数的最佳估值,然后上调这个值。如果像大多数情况一样,调整不够充分,那么X90将不够极端。类似的锚定效应也会发生在X10的选择中,人们可能会通过向下调整最佳估值来得到这个值。因此,介于X10X90之间的置信区间将会变得非常窄,且评估的概率分布会过于集中。为了支持这一解释,可以证明主观概率是在最佳估值无法作为锚的程序中被系统性改变的。

一个给定量的主观概率分布(如道琼斯指数的均值)可以通过两种不同的方法得到:(1)要求被试选择与其概率分布中某一特定百分位数相对应的道琼斯指数的值;(2)要求被试评估道琼斯指数超过某一具体值的概率。这两种方法在形式上是等价的,因此应该产生相同的分布。然而,它们却从不同的锚定点衍生出了不同的调整方式。在第一种方法中,自然起点是对某一量的最佳估值。而在第二种方法中,被试可能是以问题中设定的值为锚定点的。此外,他的锚定点有可能是正反概率相等,也就是似然估计的自然起点。无论哪种情况,第二种方法产生的极端概率都小于第一种方法。

为了对比这两种方法,我们向一组被试呈现了24个量(如从新德里到东京的空中距离),这些被试需要对每个问题进行X10X90的评估。另一组被试看到的则是第一组被试对24个量估计的中位数。他们被要求评估每个给定值超过其对应真实值的概率。在没有任何偏差的情况下,第二组应该重现第一组给定的概率,即9:1。不过,如果以平均概率和设定值作为锚定点,第二组的概率应该会不那么极端,也就是接近1:1。事实上,这组被试给出的所有问题的概率中位数为3:1。当对两组被试的判断进行外部校准测试时,我们发现第一组被试过于极端,而第二组被试则过于保守。

讨论

本章讨论了由于依赖判断启发式而产生的认知偏差。这些偏差不能归因于动机效应,如一厢情愿的想法或由于奖励和处罚而产生的判断扭曲。事实上,尽管被试被鼓励做出准确的回答,并且在回答正确时能获得奖励,但我们还是观察到了前文中出现的那几种严重的判断错误(Kahneman & Tversky,1972;Tversky & Kahneman,1973)。

对启发式的依赖和偏差的普遍性并不只发生在非专业人士身上。当经验丰富的研究人员进行直觉思考时也很容易产生同样的偏差。例如,我们依然可以在受过统计学训练的人身上观察到,他们在进行直觉判断时,在未充分考虑先验概率的情况下,总倾向于做出最拟合数据的预测(Kahneman & Tversky,1973;Tversky & Kahneman,1971)。虽然复杂的统计方法可以避免基本错误(如赌徒谬误),但他们的直觉判断也很容易在更复杂和不怎么一目了然的问题中产生类似的谬误。

即使偶尔会在预测和估计中导致错误,人们依然保留了有用的启发式,如代表性启发式和可得性启发式,这并不奇怪。令人惊讶的可能是,人们未能从长期的生活经验中推断出诸如均值回归或样本大小对抽样变异性的影响等基本的统计规则。尽管在日常生活中,每个人都遇到过无数个可以用来说明这些规律的案例,但很少有人能自行发现抽样和回归的原理。统计原理不是能从每天的经验中学得到的,因为相关的案例没有被适当地归纳总结。

缺乏适当的归纳总结也解释了为什么人们通常无法发现自己在概率判断中存在的偏差。可以理解的是,人们可以通过记录自己在分配了相同概率的事件中实际发生事件的总比例,来了解其判断是否得到了外部校准。然而,根据判断概率对事件进行分组是不自然的。例如,若没有这样的分组,人们不可能发现在自己预测的发生概率高达0.9及以上的事件中,只有50%的事件会真的发生。

认知偏差的实证分析对于概率判断的理论和应用都具有重要意义。现代决策理论认为,主观概率是对一个理想化个体的意见进行量化的指标(Savage,1954;de Finetti,1968)。具体来说,针对某一具体事件的主观概率,是由个体能接受的关于这一事件的一系列赌注定义的。如果人们在投注中做出的选择符合某些原则(如理论定律),那么就可以为其推导出一个内在一致或连贯的主观概率测量方式。我们说推导出的概率是主观的,其含义是它允许不同的人对同一事件做出不同的概率判断。这种方法的主要贡献在于它提供了一种非常严格的对概率的主观理解,而这种理解适用于特定事件,并嵌入理性决策的一般理论之中。

需要指出的是,虽然主观概率有时候可以通过投注行为的偏好推断出来,但它们通常不会以这种方式形成。一个人投注于A队而不是B队,是因为他认为A队更有可能获胜;但他并没有从自己的投注偏好中推断出这一信念。因此,在现实中,主观概率决定了投注行为的偏好,而不是像理性决策的理论定律那样源于后者(Savage,1954)。

概率固有的主观属性使许多学生相信,一致性或内在连贯性是评估概率的唯一有效标准。从主观概率形式理论的角度来看,任何一组内部一致的概率判断都是一样好。这个标准并不完全令人满意,因为一组内在一致的主观概率判断可能与个人持有的其他信念不相符。想象这样一个人,他对掷硬币游戏所有可能出现的结果的主观概率判断存在赌徒谬误。也就是说,随着前面连续出现正面的次数的增加,他对掷硬币中出现反面的概率估计也会增加。根据形式理论的标准,这个人的判断是内在一致的,因此可以被视作充分的主观概率判断。然而,这些概率判断显然忽略了硬币自身没有记忆,因此它无法自发形成一定的顺序这一事实。要使判断概率被认为是充分的或合理的,内部一致性是不够的,这些判断必须与个体持有的整个信念系统相一致。很可惜,我们没有一个简单的正规程序用来评估一系列的概率判断与判断者的整个信念系统是否兼容。尽管内部一致性更容易达到和被评估,但理性的判断者仍然会争取这种兼容性。具体来说,他会设法使自己的概率判断符合自身这3方面的知识:(1)主题;(2)概率定律;(3)自己拥有的判断启发式和偏差。

本章内容最初发表在1974年9月27日的《科学》杂志上,只做了少量修改。版权归美国科学促进协会所有,经许可出版。

参考文献

Edwards, W. (1968). Conservatism in human information processing. In B. Kleinmuntz (Ed.), Formal representation of human judgment (pp. 17–52). New York, NY: Wiley.

Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological Review, 80, 237–251.

Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of representativeness. Cognitive Psychology, 3, 430–454.

Slovic, P., & Lichtenstein, S. (1971). Comparison of Bayesian and regression approaches to the study of information processing in judgment. Organizational Behavior and Human Performance, 6, 649–744.

Tversky, A., & Kahneman, D. (1971). The belief in the law of small numbers. Psychological Bulletin, 76, 105–110.

Tversky, A., & Kahneman, D. (1973). Availability: A heuristic for judging frequency and probability. Cognitive Psychology, 5, 207–232.

Galbraith, R. C., & Underwood, B. J. (1973). Perceived frequency of concrete and abstract words. Memory & Cognition, 1, 56–60.

Chapman, L. J., & Chapman, J. P. (1967). Genesis of popular but erroneous psychodiagnostic observations. Journal of Abnormal Psychology, 73, 193–204; Chapman, L. J., & Chapman, J. P. (1969). Illusory correlation as an obstacle to the use of valid psychodiagnostic signs. Journal of Abnormal Psychology, 74, 271–280.

Bar-Hillel, M. (1973). Compounding subjective probabilities. Organizational Behavior and Human Performance, 9, 396–406.

Cohen, J., Chesnick, E. I., & Haran, D. (1972). A confirmation of the inertial-ψ effect in sequential choice and decision. British Journal of Psychology, 63, 41–46.

Alpert, M., & Raiffa, H. (1969). A report on the training of probability assessors. Unpublished manuscript, Harvard University.

Staeël von Holstein, C. (1971). Two techniques for assessment of subjective probability distributions—An experimental study. Acta Psychologica, 35, 478–494.

Winkler, R. L. (1967). The assessment of prior distributions in Bayesian analysis. Journal of the American Statistical Association, 62, 776–800.

Savage, L. J. (1954). The foundations of statistics. New York, NY: Wiley.

de Finetti, B. (1968). Probability: Interpretation. In D. L. Sills (Ed.), International encyclopedia of the social sciences (vol. 13) (pp. 496–504). New York, NY: Macmillan.