数据、模型与决策:基于Excel的建模和商务应用
上QQ阅读APP看书,第一时间看更新

3.4 区间估计和置信区间

首先介绍区间估计的几个基本概念。

对于给定的概率(1-α),以及总体某个参数的一个点估计值E,得到总体参数的一个区间(E-δ, E+δ),使得这个区间包含这个总体参数的概率为(1-α)。这个区间(E-δ, E+δ)称为这个总体参数的置信区间,δ称为区间值,概率(1-α)称为置信水平。

例如,对于瓶装饮料容积的总体均值,给定置信水平为95%(即α=5%),容积总体均值的点估计为250毫升,区间值为5毫升,则瓶装饮料容积的置信区间为(245,255)毫升。这个区间估计的含义是:总体瓶装饮料容积的均值在245毫升到255毫升之间的概率为95%。

下面将介绍一些常用的总体参数的区间估计。

3.4.1 总体均值的置信区间

在3.2.1节中我们讲过,无论总体服从何种分布,只要样本数足够大,样本均值这个随机变量总是服从以总体均值μ为均值、以{L-End} 为标准差的正态分布(σ为总体标准差)。根据这个原理,我们可以用一个样本对总体的均值进行区间估计,如图3.11所示。

图3.11 总体均值区间估计的原理示意图

在图3.11中,设总体数量为N,总体均值为μ,总体标准差为σ。为了对总体均值μ进行区间估计,需要进行抽样,样本数为n。根据中心极限定理,如果样本数n足够大,样本均值理论上服从正态分布,这个理论正态分布的均值等于总体均值μ,正态分布的标准差等于σx-={L-End} 。对于给定的置信水平(1-α),样本均值的理论置信区间为:

如图3.11所示,由于总体的分布是未知的,N、μ和σ都是未知的。因此,样本的理论置信区间实际上也是未知的。

对于实际抽样的某一个样本,样本数为n,样本均值为{L-End} ,样本标准差为s,样本标准误{L-End} ={L-End} 。由于样本数有限,同时一个具体的样本具有随机性,这个样本的均值{L-End} 并不一定等于总体均值μ,样本标准差s也不一定等于总体标准差σ。以(1-α)为置信水平,以样本均值{L-End} 为点估计,以zα/2sx-为区间值,构造一个实际样本的置信区间{L-End} ,如图3.11所示,实际样本的均值和置信区间都是可以计算的。

总体均值μ可能落在实际样本的置信区间内,也可能不落在这个区间内。由图3.11可以看出,如果样本均值{L-End} 落入样本的理论置信区间内,那么总体均值μ一定落入实际样本的置信区间内。而且总体均值μ落入实际样本置信区间中的概率为(1-α),不在这个区间中的概率为α。

根据以上原理,对于给定的置信水平(1-α),可以根据一个样本的样本数n、均值{L-End} 和标准误{L-End} 来构造一个置信区间:

使得总体均值落入这个置信区间的概率等于设定的置信水平(1-α)。

例3.5 不同年龄段的人每周上网时间的抽样调查结果见光盘文件“例3.5上网时间均值的区间估计”。总共调查744人,其中18岁以下(不含18岁)136人,18—24岁257人,25—30岁168人,31—40岁115人,40岁以上(不含40岁)68人。不同年龄组的每个调查对象每周上网时间、各组上网时间的均值、标准差如图3.12所示。

图3.12 不同年龄组每周上网时间的区间估计

按照95%的置信水平,以40岁以上组为例,说明如何对各组每周上网时间进行区间估计。

首先,设定置信水平为0.95,即α=1-0.95=0.05, α/2=0.025,1-α/2=1-0.025=0.975。

其次,计算区间值{L-End} 。其中,zα/2可以用Excel标准正态分布反函数NORMSINV(1-α/2)计算,这个函数是根据标准正态分布累积分布概率值,反过来求自变量的值。样本的标准误为{L-End} ,其中s是样本标准差,n是样本数。区间值为:

最后,用样本均值减去区间值得到置信区间的左端点,用样本均值加上区间值得到置信区间的右端点,整个置信区间如下:

根据图3.12,可以对五个年龄组每周上网时间做出以下区间估计。即有95%的把握,各年龄组每周上网时间分别在以下区间内:

18岁以下组在(6.19,6.99)小时内;

18—24岁组在(20.65,21.19)小时内;

25—30岁组在(19.86,20.73)小时内;

31—40岁组在(15.82,16.83)小时内;

41岁以上组在(14.41,16.15)小时内。

区间值越小,区间的宽度就越小,区间值的大小表示区间估计的精度。由区间值的公式{L-End} 可以看出,区间估计的精度和以下三个因素有关:

(1)置信水平1-α。置信水平取值越高,置信区间越大,区间估计的精度越低。

(2)样本的分散程度,即标准差s。样本标准差越大,置信区间越大,区间估计的精度越低。

(3)样本数n。样本数越大,置信区间越小,区间估计的精度越高。

在上例五个年龄组中,区间值最小的是18—24岁组,这是由于这组的样本数为257人,是各组中最大的,而这组样本的标准差2.221又是各组中最小的。区间值最大的是40岁以上组,它的样本数只有68人,是各组中最少的,而标准差3.658又是各组中最大的。

考虑以上三个因素,通过降低置信水平来缩小置信区间是没有意义的,而样本的分散程度是不可控制的,因此,要提高区间估计的精度、缩小置信区间,只有增加样本数。

Excel有一个计算区间值的函数CONFIDENCE,其参数如下:

■ CONFIDENCE(alpha, standard_dev, size)

alpha用于计算置信水平的参数。置信水平等于100*(1-alpha)%,也就是说,如果alpha为0.05,则置信水平为95%。

standard_dev数据区域的总体标准差,假设为已知,并用样本标准差代替。

size样本数。

在例3.1中,将五个年龄段上网时间区间估计的区间值改用CONFIDENCE函数计算,结果是相同的,如图3.13所示。

图3.13 用函数CONFIDENCE计算区间值

3.4.2 比例的置信区间

在实际问题中,经常需要研究总体中具有某种特征的个体(简称为特征个体)占总体比例的问题。例如,某一品牌产品的销售量占同类产品销售总量的比例、65岁以上老年人占全部人口的比例、支持某一候选人的选民占全部选民的比例等。

设特征个体占总体的比例为π,简称为总体比例。抽取样本的数量为n,其中特征个体的数量为x,在样本中特征个体的比例为{L-End} ,简称为样本比例。统计学理论可以证明,样本比例p是总体比例π的一个无偏估计。由于抽样是随机的,样本中的特征个体数量x和样本比例p都是随机变量。

容易看出,样本中的特征个体数量x服从二项分布Bx, n, π)。根据2.2.3节二项分布的均值、方差和标准差公式,样本中的特征个体数量x的均值为nπ,方差为nπ(1-π),标准差为{L-End} 。因此,特征个体比例{L-End} 的均值为{L-End} ,方差为{L-End} {L-End} ,标准差为{L-End}

根据中心极限定理,当样本数n增大时,个体比例p的抽样分布接近正态分布。将个体比例p作为总体比例π的点估计,设定置信水平(1-α),就可以构造个体比例p的置信区间。

例3.6 在样本为500人的抽样中,男性人数为253人,样本中男性的比例为p=253/500=50.6%。要求计算在95%的置信水平下男性比例的置信区间。

解:即在95%的置信水平下男性比例的置信区间为(0.462,0.550)。

例3.7 在样本为2000件商品的抽样调查中,A商品为95件,样本中A商品的份额为p=95/2000=4.75%。要求计算在99%的置信水平下A商品的市场份额置信区间。

解:

即在99%的置信水平下A商品的市场份额置信区间为(0.0352,0.0598)=(3.52%,5.98%)。

例3.8 选举中只有A、B两位候选人。对10000名选民的民意调查结果显示,明确支持候选人A的选民为4939人,明确支持候选人B的选民为4863人,还没有决定是否参加投票和支持哪一位候选人的选民为198人。要求在95%的置信水平下,分别计算候选人A赞成选民和反对选民比例的置信区间。

解:在例3.6和例3.7中,调查的对象都具有非此即彼的特点。例3.6中,调查关注的对象是总体中的男性,总体中其他的对象就是非男性,即女性。例3.7中,调查关注的对象是此类商品中品牌为A的商品,总体中其他的对象就是这类商品中品牌不是A的商品。比例区间估计中的对象必须满足这样的特性。

而例3.8中,出现了支持选民、反对选民和还没有决定的选民三种类型。如果对支持选民比例进行区间估计,必须假定还没有决定的选民全部是反对选民;如果对反对选民比例进行区间估计,必须假定还没有决定的选民全部是支持选民。这样才符合总体比例区间估计的要求。

候选人A的支持选民比例的置信区间为:

即如果假定198个还没有决定的人都投了反对票,那么,在95%的置信水平下支持选民比例的置信区间为(0.484,0.504),即总体支持选民的真实比例有可能小于50%。

候选人A的反对选民比例的置信区间为:

即如果假定198个还没有决定的人都投了赞成票,那么,在95%的置信水平下反对选民比例的置信区间为(0.477,0.496),即总体反对选民的真实比例不会大于50%。

以上分析说明,在95%的置信水平下,还不能排除候选人A得票比例低于50%的可能性。当然,如果能对198个还没有决定的人将来投票的倾向再做出估计,即能估计其中有多少人最终会投候选人A的票,多少人最终会投候选人B的票,多少人最终不参加投票,这样假设检验的结果会更加精确。当然,这也不是很容易做到的。

必须指出,区间估计的结果与抽样方法密切相关,如果抽样方法不正确,抽取的样本不能代表总体,区间估计的结果就会失误。在西方国家的每一次重要选举中,各种民意调查机构都耗费巨资,用各种抽样方法进行民意调查,力求民意调查的结果正确反映最终选举结果。通常认为,抽样统计理论和方法如此成熟,民意调查机构的经验如此丰富,信誉如此卓著,似乎结果应该都在意料之中。可是,纵观历史,还是有不少的选举结果出人意料,选举前普遍认为不可能当选的候选人成为“黑马”,一举竞选成功。

民意调查出现失误,究其原因,还是抽样的问题,或者是样本选取不当,忽视了选民中占有一定比例、投票倾向又比较一致的群体。或者是抽样的方法和时机掌握不当,未能真实反映选民的投票意愿和意愿的变化。由此可见,抽样统计既是一门科学,又是一门艺术。切不可认为,只要抽样统计理论和计算都没错,结论就一定正确。能否既总揽全局又体察细微,是抽样统计成功的关键。

3.4.3 两样本均值之差的置信区间

在很多情况下,需要研究两个总体的差异有多大。例如,某种商品的销售量在做广告前和做广告后的差异是多大,两所中学参加高考学生的高考平均成绩差几分,新交通规则实施前后平均每天交通事故发生数下降了多少起。这些问题都是两样本均值之差的区间估计问题。假设两样本来自两个不同的总体,它们的统计参数如表3.2所示。

表3.2 两样本的统计参数

需要估计的总体参数为μ12。μ12的点估计由{L-End} 给出。对于两总体方差相等和不相等两种情况,两样本均值之差的区间估计是不相同的,下面分别加以讨论。

1.方差不相等的独立样本

设两总体方差不相等,两样本是独立的,则两样本的方差{L-End} 和{L-End} 也不相等。样本的置信区间为:

式中,tα/2, df是置信水平为(1-α)、自由度为df的双尾t分布值。自由度df的计算公式为:

计算结果小数向下取整。

例3.9 某种产品做广告前的24个月的销售量和做广告后的12个月的销售量如表3.3所示,求在95%的置信水平下做广告前后销售量之差的区间估计。

表3.3 做广告前后的销售量比较 单位:万元

解:表3.3中销售量的统计数据如表3.4所示。

表3.4 做广告前后样本的统计指标

根据题意,假设两总体的方差不相等,首先计算统计量的自由度:

向下取整可得df=30。

设置信水平为1-α=0.95,双尾概率值 α=0.05,用Excel函数TINV计算tα/2, df=TINV(α, df)=TINV(0.05,30)=2.042。

计算置信区间:

即在95%的置信水平下,做广告前后销售量之差的区间估计为(-3.548, -1.152)。由此可见,做广告前的总体平均销售量小于做广告后的总体平均销售量,也就是说,广告对这种商品的促销肯定是有效果的。

2.等方差的独立样本

设两个总体的方差是相等的。需要说明的是,尽管两个总体的方差相等,分别来自两个总体的样本的方差{L-End} 和{L-End} 仍然有可能不相等,我们以两个样本自由度n1-1和n2-1分别占两样本总自由度n1+n2-2的比例为权重,加权估计一个公共的标准差sp,表达式如下:

这样,公式(3.4)中的{L-End} 和{L-End} sp替代,自由度df用两样本的自由度n1+n2-2代替。这样,方差相等的两总体均值之差的置信区间为:

例3.10 仍然利用例3.9的数据,但假设两总体方差相等,估计两样本之差的置信区间。

解:根据题意,先计算公共的标准差:

然后用Excel函数TINV计算{L-End}

TINV(α, n1+n2-2)=TINV(0.05,34)=2.032

置信区间为:

即如果假定两总体方差相等,做广告前后销售量之差的区间估计为(-3.702, -0.998)。由此可知,在95%置信水平下,做广告前的总体平均销售量比做广告后的总体平均销售量小,广告对这种产品的促销肯定是有效果的。

这就产生了一个问题,样本方差是否相等并不能确定总体方差是否相等。那么,我们如何确定两总体的方差是否相等呢?这就需要用下一章的知识即假设检验来解决。

3.4.4 两比例之差的置信区间

分别从两总体中抽取数量为n1n2的两个样本。在两样本中特征个体的数量分别为x1x2。特征个体的比例分别为p1=x1/n1, p2=x2/n2。当样本数和特征个体数都比较大,如x1, n1-x1, x2, n2-x2都大于5时,两比例之差p1-p2的分布近似服从正态分布,置信水平为(1-α)的置信区间是:

例3.11 为了研究男性和女性患某种疾病的比例是否有差异,抽样人数为115人,其中女性n1=40人,男性n2=75人。其中,女性患病人数x1=6人,男性患病人数x2=11人。

根据题意,女性和男性患病人数的比例分别为p1=x1/n1=6/40 =0.150, p2=x2/n2=11/75=0.147。当置信水平为95%时,两比例之差p1-p2的置信区间计算如下:

以上计算结果说明,在95%的置信水平下,女性和男性患这种疾病人数的比例之差的置信区间为(-0.133,0.140)。也就是说,在当前置信水平和样本数的前提下,男性和女性患这种疾病的比例高低还不能确定,需要扩大样本规模做进一步研究。

3.4.5 方差的置信区间

方差是数据的重要特性,通过抽样样本对总体的方差进行区间估计也是实际中经常需要解决的问题。

设总体数量为N,总体方差为σ2,标准差为σ。样本数为n,样本为x1, x2, …, xn。样本均值为:

样本方差为:

用样本方差s2作为总体方差σ2的点估计。与样本均值、样本比例、两样本均值之差以及两样本比例之差这些统计量不同,方差的抽样分布既不是正态分布,也不是t分布,而是χ2(读做“卡方”)分布。第2章中讲过,χ2分布和t分布一样,是一种以自由度为特征的分布,一个自由度为n的χ2分布是n个独立的正态分布随机变量之和。与正态分布以及t分布不同,χ2分布的密度函数不是对称的曲线。

附录4提供了给定自由度和置信水平的χ2分布临界值表。Excel计算χ2分布的函数有:

■ CHIDIST(x, degrees_freedom)返回自变量x的密度函数值

x 用来计算分布的数值。

degrees_freedom自由度。

■ CHIINV(probability, degrees_freedom)返回χ2分布单尾概率的反函数值

probability χ2分布的单尾概率。

degrees_freedom自由度。

由于χ2分布密度函数不是对称的,因此方差的置信区间不是“点估计±标准误差”的形式。事实上,置信水平为(1-α)的样本方差的置信区间为:

例3.12 对于不同年龄组上网时间的调查,有关数据如表3.5所示。

表3.5 不同年龄组每周平均上网时间(小时)

用Excel表分别计算各组上网时间方差的置信区间,图3.14是40岁以上组置信区间的计算,其他组的计算与此类似。见光盘文件“例3.12不同年龄段上网时间方差区间估计”。

图3.14 不同年龄组每周平均上网时间方差的置信区间

由图3.14可以看出以下两点:

(1)五个年龄组的上网时间的方差点估计都落在置信区间偏左端的位置。

(2)五个年龄组的置信区间宽度和样本数以及样本的标准差有关,样本数最多、标准差最小的18—24岁组区间宽度最小,而样本数最少、标准差最大的40岁以上组区间宽度最大。

3.4.6 置信区间总结

现在,将本节中所讨论的区间估计和置信区间汇总如表3.6。

表3.6 区间估计和置信区间汇总

注:如果样本数大于30,表中的t分布也可以用正态分布代替,从而无须计算自由度。