1.7 均值与标准差
一般地,我们主要关注的是总体的某个质量特性及其分布情况而不是总体的全部质量特性。总体中某个质量特性对应着一个随机变量,故用一个随机变量X代表一个总体。
要想彻底弄清楚随机变量X,就必须弄清楚它的概率分布。从理论上讲,如果知道了随机变量X的概率分布,则随机变量X的全部属性就都知道了。但在实际问题中,概率分布的确定比较困难,而随机变量X的特征数却比较容易估计,它从客观上反映了随机变量X的概率分布情况。所以,在数理统计的很多问题中,我们不可能也不需要去考察随机变量X的全貌,而只要知道随机变量X的主要特征数就够了。
均值和方差是随机变量极为重要的两个概念,它们分别用来度量数据的集中位置和离散程度,是反映产品质量的两个极重要的特征数。有了这两个数,我们就可以知道随机变量X的分布特征了。如由于多种因素影响,零件长度是一个随机变量,只要我们知道整批零件的均值和方差,就可以了解零件长度的分布概貌。
均值的概念不难理解,顾名思义,就是数据的算术平均值。在此简要介绍一下标准差的概念。在概率论与数理统计中,对于连续可计量的质量特性,人们为表示一组数据的离散程度,定义了标准差(standard deviation), “σ”就是标准差的符号,它是希腊语第十八个字母,英文为“sigma”,中文读“西格玛”。
如何理解数据的离散性呢?让我们来看一个实弹射击试验。3位队员射击成绩见图1-1。1号队员成绩是5发皆8环,且这5个8环几乎在一个地方,虽然偏离靶心,但比较集中;2号队员成绩是5发皆10环,不仅弹着点集中,而且击中靶心;3号队员成绩虽与1号队员一样,也是5发皆8环,但这5个8环不仅偏离靶心,而且过于分散。
图1-1 实弹射击示意图
这样我们就说,1号队员和2号队员的离散性小,即标准差小,3号队员的标准差大。虽然1号队员与2号队员的标准差几乎没有什么差别,但显然1号队员偏离了靶心,即均值偏离目标值太远。
在质量管理中,标准差σ用来表示产品或服务的一组数据的离散或差异程度。差异是质量工作者极为关注的事情,若单纯考察平均值就会掩盖差异的存在,因此,质量管理的目标不仅要减小偏移,而且还要努力缩减差异,直至产品或服务满足顾客需求。
例如,某工厂需要加工直径是10mm±0.2mm的螺母,这就要求按照直径是10mm的标准来加工,加工出的螺母直径经测量尺寸必须在9.8~10.2mm范围内,超过这个范围就是不合格。如果加工出的所有螺母的直径都恰好是10mm,那么这些螺母的直径相对于技术公差中心值(10mm)的离散程度为零,也就是说,标准差σ=0。如果加工出的数据都是10.1mm,那么标准差也是零,因为数据虽然偏离了中心值0.1mm,但数据都集中一起,并没有分散。但通常情况下,加工出的螺母并不恰好都是10mm或10.1mm,有的是9.9mm或9.85mm,还有的是10.1mm或10.15mm等等,这些数据分散在中心值10mm的两侧,离散程度越大,标准差σ就越大;离散程度越小,标准差σ就越小。一般情况下,标准差σ越小,加工过程越稳定,产品质量越高。但这还取决于该批数据相对于中心值的偏移情况,如果加工出的螺母直径都是10.5mm,尽管标准差为零,也都是不合格。所以衡量产品质量好坏的两个指标是标准差与均值,标准差越小且均值相对于技术中心值的偏移越小越好,两者缺一不可。
仍以上述为例,有甲乙两个供应商为上述厂家供货。该厂经过对两个供应商提供的样品进行测量计算,发现两个供应商加工的螺母均值都为10.05mm,但是甲供应商的标准差是0.05,乙供应商的标准差为0.067,则甲供应商的加工质量比乙供应商的好,因此甲供应商更能满足厂家要求。若两个供应商的均值不同,标准差也不同,不便于直观比较,这时就需要通过计算过程能力指数大小来确定产品质量水平高低。一般情况下,过程能力指数越高,产品质量水平越高。有关过程能力指数的计算参见后续章节。
在对离散性的概念有了定性了解后,我们看一下标准差的定量计算。
样本均值
样本均值是样本数据x1, x2, ……, xn的算术平均值,即
样本方差s2
从理论上讲,样本数据x1, x2, ……, xn的分散程度可以用每个数据xi离其均值的差来表示,称为xi的离差。但由于离差有正有负,直接对这n个离差取平均会正负抵消,无法反映这组数据的分散程度。为避免相互抵消,数据的离散程度用离差的平方和来表示。样本方差定义为离差平方和除以n-1,用s2来表示,即
之所以用n-1,是因为n个离差的总和为零,所以对于n个独立的数据,独立的离差个数只有n-1个,n-1也称为离差的自由度。
样本标准差s
样本方差的算术平方根(正的平方根)称为样本标准差,即
快速计算样本标准差[2]的简单公式为
因科学计算器具有方差和标准差的计算功能,故在此简要介绍式1-4的推导过程如下
【例2】 用三种方法计算样本7,8.5,9,9.5,10,11,11.5的标准差。解:样本均值
=(7+8.5+9+9.5+10+11+11.5)/7=9.5
样本方差
s2=(2.52+12+0.52+02+0.52+1.52+22)/6=2.33
s2=(72+8.52+92+9.52+102+112+11.52-7×9.52)/6=2.33
s2=[72+8.52+92+9.52+102+112+11.52-(7×9.5)2/7]/6=2.33
样本标准差
最常见的正态分布是由两个特征值所决定的,一个是表征分布中心的均值μ,另一个是表征离散程度的标准差σ。在质量管理中,对质量特性的确定与控制、分析与评价都离不开对均值μ和标准差σ的研究。总体是待考察的所有事物,一般情况下,总体的μ和σ未知,而样本是实际考察的事物,样本的均值和标准差可以通过抽样计算得到,因此常以样本均值和样本标准差s来估计和推算总体的特征值,这就是统计推断(statisticalinfer-ence)。由于随机抽样能保证每个个体都有同等的被抽中概率,为确保统计推断的有效性,须采用随机抽样并采集足够数量的样本。只有样本能够充分代表总体,统计推断才能有效。