AB实验:科学归因与增长的利器
上QQ阅读APP看书,第一时间看更新

3.6 方差估计问题

在区间估计、假设检验中,均值和方差是置信区间、P值等指标计算的核心基石,而且减少方差是提升实验检测精度的主要手段之一。如果错误地估计方差,那么P值和置信区间都将是错误的,从而使假设检验得出错误的结论。高估方差导致假阴性,低估方差导致假阳性。

首先回顾一下均值指标方差的计算过程,假设有i=1,2,3,…,n个独立同分布的样本。在大多数情况下,i既可以是用户,也可以是会话、页面等。

均值为

样本方差为var(Y)=

计算均值的方差为

方差估计中的常见问题主要有:对于不同类型指标(变化绝对值、变化相对值、比率类指标、特殊类指标)方差估计的不同方法,以及异常值对于方差估计的影响等问题。

3.6.1 变化绝对差和相对差的方差估计

以Yt表示实验组中某个实验指标的结果,Yc以表示对照组中该实验指标的结果,绝对差和相对差的定义如下。

绝对差:Δ=Yt-Yc

相对差:Δ%=

在报告实验结果时,一般更多地使用相对差异,而不是绝对差异。因为绝对差没有参照,所以很难定义这个绝对差变化的大小。举例来说,在一个实验中,如果用户使用产品时长多了0.1min,仅凭0.1min,很难判定使用时长是否是多了很多,或者与其他指标的影响情况如何。实验者或者决策者通常能更好地理解变化的相对幅度。一般来说,0.5%的涨幅就是一个相对较小的涨幅,而5%是一个相对大的涨幅。为了正确估计绝对差异Δ、相对差异Δ%上的置信区间,我们需要分别估计绝对差异、相对差异的方差。

绝对差异Δ的计算只涉及两个正态随机变量的差的分布问题,由于正态随机变量的差或和仍然是正态的,因此比较容易处理。绝对差异的方差是每个分量的方差之和,公式如下。

相对差异Δ%的方差估计涉及两个正态随机变量的商的分布,而正态性在商的运算中并不能保持,这个问题就变得复杂了,在统计学上称为随机变量的比率分布。对于两个正态随机变量的商的分布,从20世纪30年代开始就有不少学者进行研究。这个问题的一个经典例子是人的颅骨的高宽比例的分布。在医学上,比较两种药物的有效性,也经常涉及比率分布问题。

相对差异的方差估计:var(Δ%)=

3.6.2 比率类指标的方差估计

许多重要的指标来自两个指标的比率。例如,点击率通常定义为总点击量与总页面浏览量之比,每次点击收益定义为总收益与总点击量之比。与每个用户点击量或每个用户收入等指标不同,当使用两个指标的比率时,分析单位不再是用户,而是页面浏览量或点击量。当实验按用户单位随机化时,可能会给估计方差带来挑战。

方差基础公式很简单:var(Y)=

这背后有一个关键假设:样本Y1,Y2,…,Yn需要满足独立同分布假设,或者至少不相关。独立同分布是指在随机过程中,任何时刻的取值都为随机变量。如果这些随机变量服从同一分布,且互相独立,那么这些随机变量就是独立同分布的。

在进行AB实验的时候,如果分析单元与实验(随机化)单元相同,则满足该假设。比如,对于用户级指标,由于每个Yi代表用户的度量,分析单元与实验单元匹配,因此独立同分布假设是满足的。如果分析单元与实验(随机化)单元不相同,通常会违反该假设。比如,对于页面级指标,每个Yi代表一个页面的度量,或者一篇文章的曝光量、点击量时,由于实验是由用户随机化的,因此Y1、Y2和Y3可能都来自同一个用户,并且是“相关的”。基于这种“用户内相关性”使用简单公式计算的方差将是有偏差的。

要正确估计方差,可以将比率指标写为“用户级别指标的平均值”的比率:M=,因为是极限联合二元正态,M是两个平均值的比值,所以也是正态分布。我们可以通过delta方法估计方差,公式如下。

计算比率类指标的相对百分比方差时,由于实验组指标Yt和对照组指标Yc是相对独立的,因此计算公式如下。

3.6.3 其他指标的方差估计

在本章大多数讨论中,假设的统计数字是平均值、比率值,如果对其他类型统计数据感兴趣,比如分位数,该怎么计算呢?当涉及基于时间序列的指标时,通常使用分位数,而不是平均值来衡量。

大多数基于时间的指标是在事件、页面级别进行的,而实验是在用户级别随机进行的。在这种情况下,可以用密度估计和delta方法的组合。需要特别注意的是,有些比率类指标不能以两个用户级指标的比率的形式得出,例如页面加载时间的第90百分位数。对于这些指标,我们可能需要使用bootstrap方法或者jackknife方法,模拟随机抽样获得方差估计,从而不需要预设指标的任何参数,也不需要满足正态分布。尽管bootstrap的计算量比较大,但它是一个强大的工具,应用广泛,是delta方法很好的补充。

3.6.4 异常点对方差估计的影响

在数据收集的过程中,异常值以各种形式出现,通常是由爬虫、作弊用户、僵尸程序或垃圾邮件行为引入的。异常值对均值和方差都有很大影响,在统计测试中,对方差的影响往往大于对均值的影响。比如给实验组增加一个单一的异常值,当我们改变异常值大小时,会注意到虽然异常值增加了实验组整体的平均值,但它增加的方差更多。在估计方差时,去除异常值是至关重要的。一个实用而有效的方法是简单地将观测值限制在一个合理的阈值内。例如,正常用户不太可能在一天内执行超过500次的搜索或超过1000次的页面浏览。还有许多异常值去除技术,感兴趣的读者可以阅读相关文章。