1.8 如何根据样本推断总体
由于总体参数σ是未知的,所以人们常通过样本对总体参数进行估计。
设总体X~N(μ, σ2), xi(i=1,2, ……, n)为其样本,则有下列结论:
(1)样本均值是总体均值的无偏估计,即。
(2)样本方差s2是总体方差σ2的无偏估计,即。但注意,s不是σ的无偏估计。
(3)总体标准差σ的无偏估计是或。c4和d2是修偏系数,见表1-3。
表1-3 修偏系数c4、d2数值表
这样,通过抽取一组样本数据x1, x2, ……, xn,计算样本均值和样本标准差s,用及作为总体均值μ和总体标准差σ的估计值,进而实现根据样本和s推断总体μ与σ。
【例3】 已知样本的5个数据为0.75,0.70,0.65,0.70,0.65,试估计总体的均值与标准差。
解:=(0.75+0.70+0.65+0.70+0.65)/5=0.69
s2=(0.062+0.012+0.042+0.012+0.042)/4=0.00175
s==0.0418
=0.0418/0.94=0.44
有文献介绍估计μ和σ的两种方法[2]如下:
当每隔一定时间抽取n个产品,连续抽取k组(每组n个产品)可以得到μ和σ的估计值是或。
其中, c4和d2是修偏系数。
当长期地收集数据,使得样本数n很大时,可直接用样本均值和样本标准差s估计总体的均值μ和总体标准差σ。
数理统计学告诉我们,当n>25时,修偏系数c4=4(n-1)/(4n-1)。作者在2≤n≤30范围内对c4做了计算,见表1-4。结果表明:当保留小数点后3位时,两者基本相同;在n=25时两者相等;当n>25时,c4=0.99≈1。这说明当n很大时,可采用样本标准差近似代替总体标准差。但在控制图中,每个子组样本数量n并不大,常取4~6为宜。
表1-4 修偏系数c4与公式计算c4比较表
有文献[3]介绍了估算标准差的4种方法。连续抽取k组数据,每组n个,估计总体标准差σ的方法有:
1.总体方差法
直接采用样本标准差公式计算k×n个数据的标准差
2.均值方差法
先计算每组数据的均值,得到k个均值,再计算这k个均值的标准差,然后根据样本均值的标准方差与总体标准方差的关系估计计算。
3.分组方差法
先计算每组数据的标准差si,得到k组数据的k个标准差,后计算这k个标准差的均值,根据样本标准差与总体标准差的关系估计计算。其中,c4为与每批数据个数n有关的常数。
4.分组极差法
先计算每组数据极差Ri,得k组数据的k个极差,后计算这k个极差的均值,根据样本极差与总体标准差的关系估计计算。其中,d2为与每批数据个数n有关的常数。
【例4】 以手表螺栓扭矩抽样数据为例,见表1-5,用上述四种方法计算标准差。
表1-5 手表螺栓扭矩抽样数据表
(注:数据来源于文献[1])
解:总体方差法
本例用Excel中的标准差功能函数stdev()计算得6.10(计算方法参见第12.6案例1)。
均值方差法
本例中计算出25组数据各自的平均值,计算这些均值的平均值,再采用标准差公式计算出这k个均值的标准差为=2.90,则。
分组方差法
本例中计算出每组数据的标准差si,再计算出这些标准差的均值,则s==5.64/0.94=6.00。
分组极差法
本例中计算出每组数据的极差Ri,再计算出这些极差的均值=14.28,则s==14.28/2.326=6.14。
说明:为与偏移系数保持一致,计算过程中保留3位小数。
比较总体方差法、均值方差法、分组方差法和分组极差法计算结果,相对于总体方差法而言,均值方差法估计值偏离最大。上述四种方法计算总体标准差,都属于“点估计法”。显然,样本数越小,估计值越不能代表总体;样本数越大,估计值越接近真值。当样本趋于无穷时,四种方法计算结果趋于同一值。