4.3 最小实验参与单元数量
从统计理论上,实验样本量(即实验参与单元数量)越多越好,因为如果实验参与单元数量太少,实验容易被个别样本点带偏,造成实验结果不稳定、难以得出准确的结论。样本数量变多,实验就有了更多的“证据”,实验的可靠性也就越强。然而,在现实操作中,进行实验的样本量应该越少越好,原因有如下两点。
●流量有限。大公司因为用户数量足够多,所以不用过于精打细算,同时跑几十个甚至上百个实验也没问题。小公司一共就那么点流量,还要开发这么多新产品。在保证不同实验的样本不重叠的情况下,产品开发的速度会大大降低。
●试错成本高。假设我们对50%的用户进行实验,不幸的是,1周后结果表明实验组的总收入下降了20%。算下来,实验在一周内给公司带来了10%的损失,这个试错成本太高。
不难看出,选择样本数量是个技术活,样本量太小,结果不可信;样本量太大,试错成本太高。问题的关键变成,如何确定一个“最小”的样本数量,在保证实验“可靠性”的同时,不会浪费过多流量。在确定最小实验样本数量的时候,主要受到哪些因素的影响呢?根据统计学的知识,需要考虑以下4个因素。
1.显著性水平
显著性水平一般常用α表示,其含义是第一类错误出现的概率,可用于控制第一类错误。第一类错误在实验中表现为实验没有效果,却判断为有显著效果。在商业背景下,第一类错误意味着新产品对业务其实没有提升,我们却错误地认为有提升,把不好的新功能推向全部用户,损害用户体验。这样的决定,不仅损害公司的长期利益,浪费了公司的资源,而且还让部分人得到了不应得的奖励,这种错误是实践中最为常见的。在做AB实验时,公司一般会选择一个可以接受的α作为上限,最常见的是5%。5%的含义就是在做实验的时候,保证第一类错误出现的概率不超过5%。
2.统计功效
统计功效一般用1-β表示,是指实验本身有效果同时也被判断为有效果的概率。统计功效越高越好,如果功效太低,比如只有50%,意味着实验结果只有50%的概率被检测出来,这种情况是对团队资源的极大浪费。β对应的就是第二类错误,表示实验有效果但是被判断为无效果。一般来说,统计功效要在80%以上。
对于一个AB的实验。
●第一类错误不超过5%,即α≤5%。
●第二类错误不超过20%,即1-β≥80%。
这表明了实验者对于两类错误上限的选取。这两个数据背后代表的理念是,宁可砍掉4个好的产品,也不应该让1个不好的产品上线。这也是绝大多数AB实验所秉持的基本思想。每个产品可以根据自己的实际情况控制两类错误。
3.基线水平
基线水平是指在实验开始之前,对照组中所关心的实验指标的表现情况,也就是产品不做改变时的指标水平。常见的指标类型有比率类指标(比如用户付费转化率、点击率等)和均值类指标(比如人均时长、人均支付金额等),下面分别讨论这两种指标的情况。
比率类指标,以推荐系统中的点击率为例,如果对照组的点击率是15%,意味着基线水平是15%。对于这种比率类的指标,从直观上来理解,当基线水平很大(接近1)或者很小(接近0)的时候,实验更容易检测出差别。举个极端的例子,假设之前的推荐系统非常不准确,对照组的点击率为0,基线水平为0,如果新的推荐算法只有一个用户点击,相对于对照组来说也是挺大的提升。此时,即便是微小的变化,实验效果也会更容易地检测出来。更容易检测出变化,意味着功效变大,如果保持功效不变,那么所需要的样本数量变少。同理,当基线水平居中(在0.5附近)的时候,实验的功效会变小,如果保持功效不变,那么所需要的样本数量会变大,如图4-7所示。
图4-7 不同类型指标的基线水平与功效、实验样本量的关系
对于均值类的指标,主要是考虑对照组的方差分布,也就是这个指标的波动,数据整体偏离平均值的情况如何。如果方差小,意味着波动小,那么实验更容易检测出差别,功效大,如果保持功效不变,那么所需要的样本数量变少;如果方差大,意味着波动大,那么实验更不容易检测出差别,功效变小,如果保持功效不变,那么所需要的样本数量变大,如图4-7所示。
4.最小检出水平
顾名思义,最小检出水平用于衡量实验判断精确度的最低要求。参数越大说明期望的精度越低,比如10%,说明我们希望实验能够检测出10%的差别即可。检测这么大的差别当然比较容易(功效变大),保持功效不变的情况下,需要的样本量会变小。参数小(比如1%),说明我们希望实验可以有能力检测出细微的差别。检测细微的差别当然更加困难(功效变小),如果要保持功效不变,需要的样本量会增加。
在工作中,最小检出水平参数的选定往往需要和业务方一起商定。比如在的实验中,我们选定最小检出幅度为5%。这意味着,如果绿色按钮真的提高了5%以上的点击率,我们希望实验能够有足够把握检测出这个差别。如果低于5%,我们会觉得这个差别对产品的改进意义不大(可能是因为点击率不是核心指标),能不能检测出来也就无所谓了。
计算最小实验单元数的过程,总结起来就是为了将第一类和第二类错误控制在一定范围内,达到一定的实验置信度和业务评估精度,需要实验单元的参与数量满足最小样本量。影响这个最小样本量计算的有4个因子——显著性、统计功效、指标(方差)、最小检出水平。计算方法可以参考3.3节和3.6节,也可以直接采用http://www.evanmiller.org/ab-testing/sample-size.html的小工具。