1.2 新生婴儿性别比例总是趋于稳定吗
新生婴儿的性别比例总是趋近于1∶1吗?为什么掷硬币的次数足够多时,正反面出现的频率就接近于它们出现的概率?大数定理的前提条件和内容是什么?它又是如何应用在现实生活中的?
1.2.1 近似相等与相等的重要区别
每个学过高中生物学的人都知道这样一个事实,即孕妇产下男婴和女婴的概率是对等的,都是1/2。假设有一家妇科医院里恰好有10名待产孕妇,那么数小时之后,医院会接生出10个新生婴儿,你觉得这10个婴儿里会有多少个男婴、多少个女婴呢?
一种符合直觉的猜测是会有5个男婴和5个女婴。不过,这个答案不一定就正确。在未出生前,婴儿的性别是不确定的,对于不确定事件,我们只能计算它发生的概率,而不能提前得知确定的结果。
“初生婴儿中有5个男婴和5个女婴”这个事件的概率可以使用排列组合公式计算得到
这10个婴儿的性别总共可能会出现11种情况,即全是男婴、9个男婴和1个女婴、8个男婴和2个女婴、7个男婴和3个女婴……全是女婴。在这11种情况里,出现5个男婴和5个女婴的概率是24.5%,实际上,这是出现概率最大的一种情况。
其他情况出现的概率依次递减。即出现4个男婴6个女婴的概率和出现4个女婴、6个男婴的概率是相同的,其计算公式为,同时,这个值要小于,且大于,即这两种情况出现的概率比出现5个男婴5个女婴的概率低,且比出现3个男婴7个女婴或者3个女婴7个男婴的概率高。
类似地,考虑医院里有20名待产孕妇的情况。在数小时后出生的20个新生婴儿中,有10个男婴和10个女婴的概率是多少呢?同样根据排列组合公式可知,这件事的概率为
随着新生婴儿的个数增多,可能出现的情况也会增多,男婴和女婴恰好呈1∶1比例的概率也逐渐降低。这么看来,如果将关注的新生婴儿数目放大至上千万后,男婴数目和女婴数目恰好呈1∶1的概率就会降低至一个微乎其微的程度。从这个意义上看,随着婴儿个数的增加,男婴和女婴的比例会越来越不稳定。
不过,换一种角度来考虑,这种不稳定也许是因为可能的情况增多了。把接生婴儿想象成掷硬币,掷出正面与掷出反面的概率都是1/2,那么大部分人都会认为掷硬币的总次数越多,掷出正面的次数就越接近于掷出反面的次数。
为了验证这个符合直觉的猜想,历史上有很多数学家都做了掷硬币实验,并总结出这样一条规律:把实际掷出正面的次数称为频数,把频数与总的掷硬币次数的比称为频率,那么随着掷硬币次数的增多,掷出正面的频率会逐渐趋近于掷出反面的概率。
注意,我们这里说的是“会逐渐趋近于”,而不是“会等于”。根据排列组合公式,掷硬币次数增加后,正面朝上的次数与反面朝上的次数恰好相等的概率会降低。不过,正面朝上的次数与反面朝上的次数近似相等的概率则会增加。
1.2.2 从婴儿性别比例推广到火柴燃烧时间
随着试验次数增加,频率会越来越接近概率。要验证这个观点,首先就要定义什么是“接近”。不妨认为位于区间[0.4,0.6]之间的数据都接近0.5。
仍旧考虑孕妇分娩婴儿这个例子,假设有两家医院,比较大的一家每天接生20个婴儿,比较小的一家每天接生10个婴儿。
首先考虑较小的这一家医院。只要发生在某一天内接生到4个男婴和6个女婴、5个男婴和5个女婴、6个男婴和4个女婴这3种情况之一,就认为这天内接生的男女婴的频率接近于接生到男女婴的概率。这件事发生的概率为
即对于这家较小的医院而言,每天接生的男女婴的比例接近于1∶1的概率为60.5%。
然后考虑较大的这家医院。只要发生在某一天内接生到8个男婴和12个女婴、9个男婴和11个女婴、10个男婴和10个女婴、11个男婴和9个女婴、12个男婴和8个女婴这五种情况之一,就认为这天内接生的男女婴的频率接近于接生到男女婴的概率。这件事发生的概率为
即对于这家较大的医院而言,每天接生的男女婴的比例接近于1∶1的概率为73.6%。
假如连续记录100天医院里婴儿出生比例,大医院中记录的男女婴比例接近1∶1的日子约有70天,小医院里记录的男女婴比例接近1∶1的日子约有60天。也就是说,随着婴儿数目的增多,男女婴出生的频率会逐渐接近男女婴出生的概率。(不过,随着婴儿数目的增多,男女婴出生的频率恰好为1∶1的概率反而会下降。)
将目光放到全球的新生婴儿身上,虽然没有人记录下一段时间内全球新生婴儿的性别比例,不过,根据我们在上文中的计算结果,有理由相信新生婴儿的性别比例总是稳定在1∶1附近的。
考察婴儿性别比例是最简单的一种情况,这个定理也可以普及到其他更复杂的情况中去。即在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。这就是非常重要的大数定理。
大数定理的应用范围非常广泛。比如,我们打算购入一家火柴厂生产的火柴,但我们不清楚这家火柴厂的生产质量如何,也不可能将这家火柴厂生产的火柴全拿来试一试能燃烧多长时间。不过,我们可以取100根火柴,逐一实验一下它们的燃烧时长。
将燃烧一根火柴看作一个随机试验,根据大数定理,这100根火柴的燃烧时长将围绕在全部火柴的燃烧时长均值附近。也就是说,虽然我们不知道某一根火柴能燃烧多久,但假如这100根火柴大部分都能燃烧10s以上,就有理由认为这家火柴厂制造的火柴能燃烧10s。
1.2.3 大数定理在保险行业的应用
简单来说,大数定理关心的对象是样本均值和总体均值。大数定理认为,当样本足够大时,样本均值将落在总体均值的附近。用更精确的数学语言来表达,就是当样本量趋于无穷时,样本均值与总体均值的差将无限小。
在真实生活中,我们没办法真的抽取无穷多个样本出来,通常,抽取一部分样本就已有足够的代表性。比如,在测量某栋楼的高度时,可以重复测量多次,取多次测量的均值作为该楼的高度,以尽量消除每次测量时的误差,使结果尽可能接近真实值。
在1.2.2小节中,我们用一种推断的方式说明了这一结论,但并没有说明样本个数与误差之间的关系。如果记X为样本均值,E(X)为总体均值,D(X)为总体方差,ε为一个非常小的正数,就有如下不等式成立
其中P{Q}表示事件Q的概率。根据该不等式,样本均值与总体均值的误差与总体方差有关,它小于ε的概率总是大于等于。由于方差和ε都是正数,因此这个概率就小于1。
我们希望样本均值与总体均值足够接近,即ε足够小时,不等式|X-E(X)|<ε仍成立。而且这件事发生的概率要尽量大,即尽量保证每次抽取样本时,样本均值都与总体均值足够接近。
当D(X)固定时,ε变小,就会令变小,因此,这两个要求没办法同时满足,我们只能尝试寻找一个最佳的ε,使样本均值与总体均值的误差不至于太大,且发生概率不至于太小。
大数定理的另一个重要特性是它与总体的形状没有关系。对于重点学校来说,学生成绩可能普遍会高于70分,对于普通学校来说,学生成绩可能集中在60~80分。但无论是哪所学校,都只要抽取该学校一部分学生的成绩,其均值可以代表该学校全部学生的成绩均值。
在生活中,大数定理的应用十分广泛,最常见的就是保险行业中的应用。在现实中,保险公司会根据投保人的年龄、以往病史等信息确定投保人的具体保费,虽然不同投保人的保费不一定一致,但由于投保人过多,全体投保人的赔偿金额就会稳定在某个值附近。只要全体投保人的平均投保金额高于这个值,保险公司就是挣钱的。
在信贷行业中也是如此,申请贷款的客户有许多,全体客户的平均偿还金额是稳定的,只要平均偿还金额高于平均贷款额,银行就是盈利的。固然,有些客户会破产,不能偿还贷款。但只要大多数人能够偿还,就能够保证银行盈利。
换句话说,银行并不关心具体是谁会产生坏账,它关心的是全部客户的均值。只要贷款的人足够多,且贷款金额足够小,大数定理就一定会起作用。因此,银行不用在众多办理小额贷款的人身上花费许多精力去评估他是否会产生坏账,只需针对办理大额贷款的客户进行严格的评估,这样便可节约成本,并保证盈利。