3.5 置信水平、置信区间宽度和样本数
在区间估计中,置信水平表示估计的可靠性,置信区间宽度表示估计的精度。对于任何一种区间估计,置信水平、置信区间宽度和样本数都是相互关联的。在样本数不变的情况下,置信水平设定得越高,置信区间宽度越大。置信水平确定以后,样本数越大,置信区间宽度越小。在前面几节的讨论中,样本数都是事先确定的,因而置信区间宽度随着样本数的变化而变化。在某些情况下,事先需要确定区间估计的精度,然后要求抽取足够数量的样本来满足这个精度。这时,需要根据预先确定的区间值来计算相应的样本数。
1.抽样服从正态分布的样本数计算
例3.13 在不同年龄组平均每周上网时间的调查数据中,在95%的置信水平下,要求获得置信区间(单边)的绝对精度不低于0.1小时,即区间值≤0.1,最少需要多少样本数?
解:样本均值的区间值为{L-End} ,设要求的区间估计(单边)的绝对精度为δ,即{L-End} 或者{L-End} 。需要的最小样本数为:
式中,int为向下取整。
所需样本数的Excel表计算如图3.15所示:
图3.15 给定绝对精度,计算需要的样本数
在例3.7样本为2000件商品的抽样中,A商品为95件,样本中A商品的份额为p=95/2000=4.75%。由此得到在99%的置信水平下市场份额的置信区间为(3.52%,5.98%),区间值为1.23%。
例3.14 如果要求市场份额的精度高于1%,即置信区间不能大于(3.75%,5.75%),在同样的置信水平下,至少需要多少样本?
解:比例置信区间的区间值≤δ=0.01,即:
从中可以解出:
最少的样本数为:
即至少需要3003个样本。
2.抽样服从t分布的样本数计算
在样本均值区间估计{L-End} 和样本比例区间估计{L-End} 中,zα/2是一个与n无关的常数,最小样本数nmin可以直接从不等式中解出。当抽样服从t分布时,在样本区间估计{L-End} 中,{L-End} 和{L-End} 都与样本数n有关。这样,样本数n多大才能满足区间估计不等式,需要用Excel表对不同的样本数n分别计算{L-End} 的值,看n等于多少,这个值才会小于给定的误差界δ。