矛盾理论走向共存
纯粹贝叶斯主义者的那种概率语言的另一个优点,就是能让我们同时思考多个理论,更能让我们将它们各自的预测组合起来。在机器学习中,这个技巧被重新发掘,被称为集成学习(ensembling)或者自助投票(bagging)。在实践中,它的效果令人吃惊。将不兼容的各种理论结合起来似乎通常能给出比最好的理论更好的预测结果!互不兼容的模型组成的森林要比其中每一棵树更有智慧 [8]。
我们可以这样描述这种方法。纯粹贝叶斯主义者用某个理论 思考时,得到的概率都是关于 的条件概率。也就是说,如果在理论 中,我们知道 蕴涵 ,而且 发生的概率是 1/2,那么可以推出 且 |且 。
另外,纯粹贝叶斯主义者也能计算大量不同理论中的某些概率。我们回到萨莉·克拉克的例子。纯粹贝叶斯主义者会在她考虑的不同理论 中,计算出两名新生儿出于自然原因死亡的概率 | 且 ,以及萨莉·克拉克无罪的先验概率 。这会让她得出,在已知两名新生儿死亡的情况下,萨莉·克拉克无罪的概率在不同理论下的结果 | 且 。
如果纯粹贝叶斯主义者被法官质问,要求她提供唯一一个结果,那么她会以自己向不同理论赋予的置信度作为权重,计算通过不同理论得出的结果的加权平均。从形式上来说,这种加权平均对应的(几乎)就是全概率公式,相当于等式
| |且
在这里,符号∑表示等式右面的项是对于各种不同的理论 来说,众多形如 |且 的项的求和。
接下来一个自然的问题就是:如何计算 这些概率?它们就是纯粹贝叶斯主义者向这些不同理论赋予的置信度。要真正做到加权平均,这些概率当然需要加起来等于 1。
但更重要的是,这些概率并不是任意选取的。事实上,怎么计算它们正是这本书要探讨的核心问题。通常这些计算也依赖于贝叶斯公式,而这正是第 4 章的主题。
所有知识都会转化为概率,这些概率或大或小,依据的是亲身经历中自己的理解有多正确或者多错误,以及问题有多简单或者多复杂。
大卫·休谟(1711—1776)
我们的大脑有种讨厌的倾向,认为(……)如果在某个假设下得到的某些结果发生的可能性很小,那么假设本身也极不可能正确。这是错的。
克里斯托夫·米歇尔(1974— )