序
你拖着沉重的行李,坐火车来到一个小城市,下了车就直接走向火车站前的出租车站,那里只有一辆车。不巧,正在你走过去的关头,另一位游客捷足先登,出租车就这样在你的眼皮底下开走了。从这场遭遇中,你能得出什么结论?这座城市似乎还是有出租车的(毕竟这种规模的城市其实不是总有出租车的),所以,如果你耐心等待,说不定就会有另一辆车开过来。或者说,整个城市没多少出租车,你刚好错过一辆,因为城市很小,这样的好事大概不会接二连三地发生。这两种解释都对,但选择哪一种就取决于你在下火车前知道的(或者说相信的)是什么。
这位造访未知城市的旅行者对出租车的数目进行了推测,然后根据观察结果修改这些推测。这种做法跟刚降生到这个未知世界的婴儿,或者思索为什么太阳每天早上都会升起的研究人员(他们会惊叹其他人居然对此感到理所当然)所做的没多大差别。他们都在探索世界,提出假设并根据观察结果修正这些假设。
从经验中能得到什么教训?如何才能认识这个世界?黄黎原(音译)的这本著作希望我们思考的正是这些问题。
这些问题正好概括了超过一个世纪的争论:对于某个假说,能否赋予它一个衡量其真实性的数值?对于某些人,比如汉斯·赖欣巴哈来说,这正是发展概率论的目的。特别是,所有证实某个假说的观察结果都会提高这个假说的正确性的概率,比如每看到一只黑乌鸦都会提高“所有乌鸦都是黑的”这个假说为真的概率。对于其他人,比如卡尔·波普尔来说,赋予这种假说的数值只是一种幻觉。看到一只黑乌鸦,我们只能断定“所有乌鸦都是黑的”这个假说仍然吻合我们的观察结果。
处于这场争论中心的是一个简单得出乎意料的公式,也就是贝叶斯公式——“智慧方程”。这个公式能做的,就是让我们在获得某个观察结果之后,计算应该赋予某个假说的概率——所以赖欣巴哈说得有道理;但前提必须是在观察之前就知道怎么向这个假说赋予概率——所以波普尔说得也有道理。
尽管可以说,这个问题在 20 世纪似乎已被解决(当时的胜利者是波普尔),然而,目前数据收集技术的演变让人们开始重新审视这个问题。在 20 世纪,如果我们相信白乌鸦存在,那么观察到三只乌鸦全是黑色的事实可以被解释为巧合。在今天,当我们观察 100、1000 甚至 1 亿只乌鸦,且看到它们都是黑色的时候,我们就需要某种勇气,甚至是某种偏执,才能断言不一定所有乌鸦都是黑的,而观察结果完全一致只是偶然。至少我们必须退让,承认在所有乌鸦之中,有一大部分都是黑的,至于白乌鸦只能作为例外。贝叶斯公式指出的先验假说问题使人们反对赖欣巴哈的观点,但今天数据的泛滥已经冲淡了这种反对。相对的是,其他问题出现了:这些数据是怎么收集而来的?收集数据的方法会不会引入对白乌鸦的认识偏差甚至歧视?我们再一次观察到技术的演变,尤其是科学研究中的技术,如何改变了科学哲学提出的问题。
正是这一点令这本书更加引人入胜。这本书写于一个翻天覆地的时代,技术的演变让我们重新审视贝叶斯公式以及它在知识大厦中的位置。
这本书也写在了一个传播方式改变了我们谈论科学方式的时代。受到在线视频风潮的影响,作者找到了谈论科学的新方式,既严谨认真又娓娓道来,并且擅长用例子照亮最抽象的问题。
吉尔·多维克
法国国家信息与自动化研究所研究员,著有《计算进化史》
巴黎–萨克雷(卡尚)高等师范学校教授
本书中对众多概念的讨论与推论均为作者个人观点,不代表人民邮电出版社的立场。
概率论本质上不过是化为计算的常识。它以准确的方式评价那些正常的头脑通过某种直觉领会到的东西,而这种直觉领会经常不被察觉。
皮埃尔–西蒙·拉普拉斯(1749—1827)