AB实验:科学归因与增长的利器
上QQ阅读APP看书,第一时间看更新

3.5 非参数检验

无论是t检验还是z检验,基于参数的检验方法都有一个隐含的前提,即要求符合独立同分布。基于这个前提,可以得到用于推断一个或多个总体参数(例如总体均值、总体标准差)的抽样分布。实际上,有时可能样本总体的概率并不符合独立同分布。比如,在搜索中,各条目间不一定独立,可能存在干扰,比如用户读过更好的条目或者相似的条目,可能不会再点击新的条目等。现在很多实验系统开始采用非参数的方法对总体进行推断。非参数的方法对总体概率没有分布形式的要求,不对模型做任何参数假设,完全是基于数据模拟的方法。因为没有假设,无须标准差的理论计算,所以也不关心估计的数学形式有多复杂,即使不符合正态分布,也一样适用。

目前用得比较多的是bootstrap和jackknife这两种非参数的检验方法,它们的差异在于bootstrap进行有放回的采样,jackknife进行无放回的采样。假设所有样本被随机分为N份,jackknife每次从N份样本中删除一份样本,将剩余的样本形成一个新样本,jackknife利用更少的样本,即更少的信息来进行估计,工程实施上也更容易计算。事实上,jackknife方差为bootstrap方差的一阶近似。

下面通过一个计算案例来简单介绍bootstrap的原理。

30个中学生身高(单位为cm)从低到高排列:137.0、138.5、140.0、141.0、142.0、143.5、145.0、147.0、148.5、150.0、153.0、154.0、155.0、…、156.0、157.0、158.0、158.5、159.0、160.5、161.0。下面用bootstrap方法来求置信区间。

第一步,从原始样本中有放回地抽取一个容量为20的样本:138.5、138.5、140.0、…、158.5、160.5。

第二步,计算样本均值u=153.5。

第三步,重复前两步1000次,得到bootstrap统计量的经验分布,绘制密度函数图形如图3-8所示。

图3-8 bootstrap抽样均值的密度函数

基于密度函数,可以计算出95%的置信区间。在求置信区间的时候,由于选择不同的区间长度,会得到不同的边界值,因此可以通过最短区间长度法来确定唯一的置信区间。假设获得的置信区间为,区间长度为6.8,这是选择样本容量为20获得的置信区间。通过实验可以得到,当样本容量变小的时候,同等置信水平下,置信区间会变大,估计精度也会随之变低。在选择样本容量的时候需要考虑估计精度。

在实际应用中,jackknife方法应用得更多,一般不是把每个用户作为一个样本点,而是将聚合后的n个用户分为一个桶,一个桶作为一个点,然后采用jackknife方法去获取整个样本的分布,从而减少计算量。