2 理解
第9章 学习这个世界
我们对托马斯·贝叶斯(Thomas Bayes)牧师所知不多。他生活在18世纪,大部分时间在本地的教区当神职人员,生前只发表过两部著作。其中一部是对牛顿微积分理论的辩护,当时微积分还需要这种辩护,而另一部论证了上帝的首要目标是使它的造物获得幸福。
然而在他的暮年,贝叶斯对概率论产生了兴趣。他关于这个主题的笔记在死后才发表,却给后世带来了巨大的影响——在网上用英文搜索“贝叶斯”(Bayesian),能找到超过1100万个相关结果。他启发了许多人,包括皮埃尔-西蒙·拉普拉斯,后者发展出一套更完备的概率运算规则。贝叶斯当时是长老宗的牧师,处于英国国教以外,而拉普拉斯则是一位法国的无神论数学家,这说明对智慧的痴迷能跨越重重障碍。
贝叶斯和他的继承者们回答了一个说起来简单但却无所不包的问题:我们对自己觉得知道的东西有多少了解?如果我们想要解决那些有关现实的终极本性以及我们在其中身处何处的宏大问题,先思考如何才能得到最可靠的理解,这会是个很大的帮助。
仅仅提出这个问题,就意味着承认我们的知识,或者至少是其中的一部分,并非完全可靠。承认这一点是踏上智慧之路的第一步,而第二步就是要明白,即使没有东西是完全可靠的,我们的各种信念之间不可靠的程度也并不相同。有些信念比别的更经得住推敲。贝叶斯被后世记住的贡献,正是如何掌握我们对于不同信念的信心程度,以及当遇到新信息时如何更新这些信心程度的一套好方法。
概率论狂热爱好者的群体虽小,但充满激情,其中许多热烈的论战都围绕着“概率到底是什么”这个主题。其中一个阵营是那些频率主义者,他们认为“概率”就是“在无限次实验中某件事会发生的频率”的缩写。如果你说抛硬币会有50 %的机会抛出正面,频率主义者就会向你解释,你真正的意思实际上是抛无限次硬币的话,正反面出现的次数相对而言会非常接近。
另一个阵营是贝叶斯主义者,对于他们来说,概率就是你在缺少知识或者不确定的时候拥有的信念状态。对于贝叶斯主义者来说,抛硬币得到正面的机会是50 %,其实就是在说你没有任何理由去认为其中一种结果比另一种更可能。如果要在抛硬币的结果上打赌的话,你会觉得正面还是反面都一样。贝叶斯主义者还会细心地告诉你,这就是这种断言唯一可能的含义,因为我们不可能目睹无限次实验,而且我们经常谈论那些只会发生一次的事情的概率,比如说选举或者体育比赛。然后频率主义者就会反驳,说贝叶斯主义者向本来关于世界会如何运转的客观讨论中掺杂了主观和无知这些不必要的概念,所以他们不正确。
——
我们这里的目的并不是决定有关概率本性的深刻性质。我们感兴趣的是信念,也就是人们认为是真的或者至少是有可能是真的事物。“信念”这个词有时候被当成“在缺乏足够证据的情况下认为某件事是真的”的同义词,很多不信宗教的人不能接受这个概念,甚至完全抗拒“信念”这个词。我们会用“信念”来表达任何我们认为是真的事物,无论我们有没有理由去相信它们;我们完全可以说“我持有二加二等于四这个信念”。
我们通常不会百分之百坚持我们的信念,对于足够谨慎的人来说甚至一直如此。我相信太阳明天会从东方升起,但我并不绝对确信。高速运动的黑洞可能会撞上地球,地球会因此完全毁灭。我们所持有的实际上是信心程度,统计学的专业人士又将它称为置信度。如果你觉得明天有四分之一的可能性下雨的话,你对下雨的置信度就是25 %。我们拥有的每一个信念都有它自己的置信度,即使我们不会将它清晰地表达出来。有时候置信度就意味着概率,比如我们会说,一枚无偏的硬币掷出正面的置信度是50 %。但有时置信度单纯反映了我们知道的东西有所欠缺。如果朋友告诉你,在你生日时他们真的尝试过打电话庆祝,但不凑巧困在了没有信号的地方,这种情况不涉及概率,这话要么是真的,要么是假的。但如果你不知道真实情况的话,你至多只能向每种可能性赋予一定的置信度。
贝叶斯的主要思想,现在又被称为贝叶斯定理,就是一种对置信度的思考方式。它让我们能解答以下的问题。想象一下,我们对不同的信念赋予了某种置信度,然后我们得到了一些信息,学到了一些新东西。这些新信息会怎么改变我们赋予不同信念的置信度呢?当我们学到越来越多与世界有关的新东西时,这就是我们需要反复回答的问题。
——
比方说你在和朋友打扑克牌。游戏规则是先抽五张牌,所以你们一开始都有五张牌,然后选择丢弃其中的几张,再抽新的牌来替换。你看不到朋友的手牌,所以一开始你完全不知道他们手里有什么,只知道他们手上没有你自己手上的那几张牌。然而你并非一无所知;你隐约知道某些类型的手牌比其他类型更可能出现。一上手只有一对对子,或者连对子都没有,这种情况相对来说更常见;一开始拿到同花(五张花色相同的牌)就相当罕见了。精确计算的话,别的可能性暂且不提,随机的五张牌有50 %的情况下“什么都没有”,42 %的情况下会有一对对子,而在少于0.2%的情况下会是同花。这些开局的概率就是你的先验置信度。这就是在了解到新信息之前,你心里一开始的置信度。
但现在局势慢慢展开:你的朋友扔掉了几张牌,然后抽了数量相同的牌作为代替。这里有一些新的信息,你可以用它来更新你的置信度。比如说你的朋友只抽了一张牌,这向我们透露了他手牌的什么信息呢?
他不太可能只有一对对子,否则他应该会抽三张牌,这样可以最大化拿到三条或者四条的机会。但抽一张牌与他手头上拿着两对或者四条的可能性相当吻合,在这种情况下,他会希望留住这四张牌。抽一张牌和他手上拿着四张相同花色的牌(换一张牌可能就能拿到同花)或者四张连着的牌(换一张牌可能就能拿到顺子)这两种可能性也相当吻合。这些可能的合理行为发生的可能性被称为问题的似然度。如果将先验置信度和似然度结合起来,我们就能更新有关对方初始手牌的置信度(要知道对方抽牌后的手牌大概是什么要更难一些,但是难不倒资深玩家)。这些更新后的概率自然被称为后验置信度。
我们可以将贝叶斯定理看成我们之前说过的“溯因推理”方法的量化形式(溯因推理的重点在于找到“最优解释”,而不仅仅是符合观察数据的解释,但两种想法在方法论上相当类似)。它是所有科学以及其他形式的实证推理的基础,指出了我们考量信心程度的一个普适方法:从某种先验置信度出发,随着新信息的增加,依据新信息与原来的可能性之间的似然度来更新置信度。
——
贝叶斯推理的有趣之处在于对先验置信度的强调。在扑克的例子中,这并不是件难事;先验置信度直接来自不同手牌的概率。但这个概念的应用范围相当广泛。比如说某个下午你在和朋友喝咖啡,他们说出了以下三句话之一:
·“今天早上我看到有个人骑着单车经过我家房子。”
·“今天早上我看见有个人骑着马经过我家房子。”
·“今天早上我看见有个无头骑士骑着马经过我家房子。”
在这三种情况下,你获得的基本上是同一种证据:你朋友以叙述事实的口吻说出的一段陈述。但在这三种情况中,你对每一个可能性赋予的置信度,或者说信心程度,却有天渊之别。如果你住在都市或者市郊的话,你会更可能相信你朋友看见有人骑自行车而不是骑马——除非你家附近的警察经常骑马巡逻,或者你的城镇正在举办巡回牛仔竞技比赛,或者其他类似的可能性。但如果你住在土路众多而马匹常见的乡村,可能你会更容易接受看到的是马而不是自行车。无论哪种情况,你都会非常怀疑无头骑士的存在。
你会这样想,就是因为你心中有先验置信度。你居住的地方不同,对看到有人骑自行车和看到有人骑马赋予的先验置信度也不同,而无论哪种情况,你对有头骑士的先验置信度要比无头骑士的高得多。这并没有什么问题。实际上,任何一个贝叶斯主义者都会告诉你,这就是唯一的道路。每当我们考虑不同论断为真的可能性有多大时,我们的答案都结合了对这个论断赋予的先验置信度,以及获得的各种新信息在论断为真的情况下的似然度。
科学家经常需要判断那些看似非同一般的发现声明是否正确。在2012年,在做大型强子对撞机工作的物理学家声称发现了一种新粒子,很有可能就是人们苦苦寻觅的希格斯玻色子。世界各地的科学家都很乐意就这样接受这个发现,部分原因是有很好的理论依据推测在那个地方就能发现希格斯玻色子;他们对这件事的先验置信度相对比较高。反观在2011年,一群物理学家声称测量到中微子的移动速度明显超过光速,这回科学家普遍持怀疑态度。这不是针对实验者能力的指责,只是反映了绝大部分物理学家向任何超光速粒子的存在性赋予了非常低的置信度。事实也是如此,在几个月后这个团队就公开声明他们的测量存在误差。
有个很老的笑话,说的是某个实验结果“被理论所证实”,而一般的观点是实验结果证实或者推翻了理论。在这个笑话中有一点贝叶斯式的真理:对于某个惊天动地的发现,如果我们手头上就有一个令人折服的理论能解释它的话,人们更可能会相信。这样的理论解释会增加我们一开始向这个发现赋予的先验置信度。