3.1 随机抽样和抽样分布
抽样是从总体中抽取一部分个体组成新集合的过程。简单随机抽样是通过逐个抽取的方法抽取一个新样本,且每次抽取时个体被抽到的概率相等。简单随机抽样有两个要求:1)个体来自同一个总体;2)个体的抽取是独立的,被抽到的概率相同。
抽样的意义在于通过小部分抽样用户的表现去估计全部用户的表现。因为无论是工业上实体物品检查,还是虚拟互联网里的用户实验,一般都不可能对所有的物品进行检查,或者对所有的用户进行实验,这不仅成本很高,而且通常是不可行的,所以我们希望只用一小部分用户的表现,就能推论出所有用户的表现。这里所说的表现,主要是通过量化后的指标来衡量,比如用户数、用户使用时长、用户留存、用户点击率等。用来估计这些指标的两个重要的统计量(或者说统计参数)是均值和标准差。
举个例子,某个App应用中,全体日活跃用户有500万个,用户人均使用时长指标的总体均值为μ,总体标准差为σ。从这500万个用户中随机抽取100个,这100个用户就构成了一个简单随机样本。这100个用户的使用时长的均值为样本均值,样本标准差为s。样本均值又称为总体均值μ的点估计量,样本标准差s称为总体标准差σ的点估计量。、s的计算公式如下。
具体数据如表3-1所示,总体均值为20min,样本均值为20.5min,总体标准差为1.6min,样本标准差为1.5min。
表3-1 100人组成的简单随机样本的点估计值
不难理解,由于样本只是抽取了总体的一小部分用户,因此样本均值和总体均值肯定有所差异,可以用如下公式来表达。
公式中的ε就是两者之间的差异,那么这个差异到底有多大,会在什么范围内呢?这是我们在估计的时候需要掌握的。在实际中,很多时候不知道总体的真实均值μ,需要通过样本均值以及偏差ε去估计。由于样本均值可以通过样本直接计算,因此重点是需要找到偏差ε。
如何计算ε呢?直观来看,抽样的用户数量越大,样本均值和总体均值的差异就越小,如果逼近全体用户,样本均值就会无限接近总体均值μ。当无法得到全部用户数据时,是否可以采用反复抽取100个用户的方法,得到不同的随机样本呢?假设重复这个随机抽样过程1000次,得到1000组简单随机样本,每组随机样本都包含了100个用户。对这1000组随机样本分别求均值,就得到了1000个样本均值,它们就形成了样本均值的一个抽样分布。通过这个分布,我们就能将样本均值与总体均值μ的接近程度做一个概率度量。样本均值实际上就是一个随机变量,它也有均值、标准差和概率分布。通过数学推导,可以得出如下公式。
上面的公式表明样本均值的数学期望等于总体均值,标准差等于总体标准差除以(注:这个公式适用于总体有限)。有了这两个参数,确定的概率分布就可以得出抽样分布特征。样本的概率分布有两种情况:1)总体服从正态分布;2)总体不服从正态分布。当总体服从正态分布时,任何样本容量的样本均值的抽样分布都是正态分布。当总体不服从正态分布时,通过中心极限定理(Central Limit Theorem,CLT)可以确定的抽样分布。
中心极限定理是从总体中抽取容量为n的简单随机抽样,如果n足够大,则样本均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。统计研究人员分析各种不同总体(比如常见的均匀分布、兔耳分布、指数分布等)在不同样本容量下的抽样分布,发现当样本容量大于30时,的抽样分布可用正态分布近似;当总体严重偏态或者出现异常点,样本容量达到50时,也近似正态分布 。当总体为离散型时,需要的样本容量一般依赖于总体的比例。以常见的均匀分布为例(图3-2中正态分布为1~5的均匀分布),在不同的样本容量下,其抽样分布形状如图3-2所示,当n>5时,其分布逐渐向正态分布靠近;当n=15左右时,已经可近似视为正态分布。
关于抽样分布的形态,我们有如下总结。
●如果总体分布为正态分布,样本容量n为任意数,u的抽样分布都是正态分布。
●如果总体分布为非正态分布,样本容量30<n<50,u的抽样分布可用正态分布近似。
中心极限定理非常重要,它意味着即使原始数据分布不是正态的,从中抽取样本后,样本均值的分布也是正态的。这样我们就可以用均值的正态分布来估计置信区间,进而可以进行参数检验(如t检验等),来评估两个样本均值之间是否存在差异。
图3-2 均匀分布总体下不同容量的抽样分布示意图
由于案例中采用的抽样样本容量为100,远大于50,因此可以视为近似服从正态分布,近似画出样本均值的抽样分布,如图3-3所示。
图3-3 100个用户的简单随机样本时长均值的抽样分布
这里需要特别注意两个概念——样本容量和样本量。
●样本容量:每个随机样本里面个体的个数。例子中样本容量是100。
●样本量:随机抽样的次数,即得到的样本数量。例子中样本量是1000。
虽然E()=μ与样本容量无关,但是样本标准差和样本容量有关,样本容量越大,标准差越小。如图3-4所示,从图形上看,样本容量为10万的钟形比样本容量为50000的更集中、更尖,说明样本容量越大,钟形越集中、越尖。从数学上反映为样本均值落在总体均值某一特定范围内的概率也越大。这符合我们的直观认知,样本容量越大时,我们对这个事情的确定性越高。当样本容量为极限,即等于总体样本中个体数N时,钟形就会收缩为一条竖线。基于抽样分布,就能计算出在总体均值μ附近一定距离内的概率。
图3-4 不同样本容量的简单随机样本中的抽样分布
假设产品人员认为人均时长指标样本均值在总体均值±0.05min以内,样本均值是总体均值一个可接受的估计值,问题就转换为根据100用户组成的简单随机样本,得到的样本均值在总体均值±0.05min的概率是多少?
如果总体均值已经确定为20min,问题就变成样本均值介于19.95~20.05min的概率。图3-5所示的抽样分布中,阴影部分的面积恰好等于这个概率值。由于抽样分布是正态分布,均值为20min,标准差为0.16min,因此我们就可以通过标准正态分布概率表来查找这个概率(曲线下的面积)。
图3-5 样本均值在总体均值附近的概率
首先计算区间右端点20.05对应的Z值,通过查表得到曲线下方该点左侧区域的面积。再计算左侧点19.95的Z值,通过查表得到该点左侧区域的面积。最后两者相减就得到了所求概率。
z(20.05)==0.3125,查表得到累积概率为0.6217。
z(19.95)==-0.3125,查表得到累积概率为0.3783。
上述计算说明,由100个用户组成的简单随机样本中,以0.2344的可靠性保证样本均值在总体均值附近±0.05min以内,即样本均值与总体均值差异大于±0.05min的概率为1-0.2344=0.7656。也就是说,大概只有23.4%的机会使得样本在认可的范围内。由于这个概率明显偏低,因此需要考虑增加样本容量,使得钟形更加集中,以提升样本在这个范围内的概率。这是因为当n=N(无穷大)时,样本均值在总体均值的概率会接近100%。