1.4 抽样误差
推断统计主要建立在三个基础之上:(1)总体参数与样本统计量;(2)抽样随机性(概率理论);(3)抽样误差。总体参数是推断统计的目的(What要做什么),概率理论是原因(Why为什么),抽样误差是方法(How如何做)。这是5W1H(What, Why, Who, When, Where, How)中,最重要的三个:Know what, Know why, Know how。
因为抽样数据只是总体数据的一部分,所以抽样数据计算出来的统计值(例如:样本平均数),与总体数据计算出来的参数值(例如:总体平均),会不相等,其差异是误差。
误差是“样本数据统计值与总体的参数值”的差(绝对值),误差有:抽样误差和非抽样误差。
定义:抽样误差(sampling error)是因为抽样的“随机性”所造成的误差。
抽样误差是不同组的样本有不同的误差,是因随机性(random)而产生的误差。衡量抽样误差和下列名词有关:样本标准误、残差、置信度、显著性水平(允许误差的概率)、第一类错误(p值)。影响抽样误差的因素有:抽样的样本量(样本量越多,抽样误差越小)、抽样的方法(分层抽样或实验设计等方法)、选择的统计量(请见第9章)。推断统计最主要目的是使变异(误差的平方)减小,使检验结果显著。
抽样误差是推断统计的基础:
(1)描述统计的平均数是:每个变量值和平均数(均值)之差(误差)的平方和最小。
(2)大数法则:当样本容量越大,抽样均值和总体均值的误差(标准误差)越小。
(3)区间估计是:置信度是控制“置信区间不包含总体参数”的误差。
(4)估计的标准误差就是抽样误差,要越小越好,估计才会越准确。
(5)假设检验的显著是:第一类错误(p值)不超过显著性水平。
(6)检验的检验值是统计值与参数值之差除以标准误差,所以,标准误差越小,检验值就越大,才有检验的显著结果。
(7)回归分析的最小二乘法是:每个变量值和回归预测值之差(残差)的平方和最小。
(8)方差分析是:总(误差)平方和=组间(误差)平方和+组内(误差)平方和,检验各组的均值是否不相等(显著),要看是否组间误差越大,组内误差越小。
(9)分类数据分析是:以样本值和理论值之差(误差)的平方和,检验一个变量的概率,或两个变量的独立性。
定义:非抽样误差(non-sampling error)是在抽样过程中,由于人为错误而造成的误差。
非抽样误差是因“人”(研究者或受测者)而产生的误差。非抽样误差包括:
(1)选择样本抽样框(sampling frame)的错误,样本不能代表总体。抽样框是:抽样个体的名册,用来抽选样本的个体,如:电话簿名册、毕业纪念册、会员名单等。
(2)选择抽样方法的误差,选择抽样方法如:便利抽样——以最方便的方法选择样本,如街头调查、利用学生做实验;还有,自发性响应样本——样本以自动应答的方式取得,如电视电台的来电(call-in)或报纸杂志的来信(write-in),其回答的样本都是有心人,与例题1.5报考多益的中国台湾高中生相似,都不能代表总体。
(3)取得数据的误差:问卷设计不好,存在敏感的问题,导致受访者不愿答或故意答错以及回收率低的误差(未回应的误差,邮寄问卷回收率低,大多数都会有问题)。
(4)量测误差:记录数据的误差(记载错误或笔误)、计算数据的误差(输入错误或计算错误)等。
非抽样误差要在实验与调查的设计上考虑,注意抽样对象是否有代表性,注意问卷的设计,尽量避免这项误差。增加样本量,并不能减少非抽样误差。如例题1.4。
抽样误差是得到样本数据之“后”的差异。非抽样误差是得到样本数据之“前”的错误。推断统计学是考虑“抽样误差”。统计工作和统计资料,要考虑“非抽样误差”,如图1.4所示。统计学是“数据进,信息出”(Data in, information out);如果有非抽样误差,则是“垃圾进,垃圾出”(Garbage in, garbage out);如果用错统计方法,就是“数据进,垃圾出”(Data in, garbage out)。
图1.4 抽样误差与非抽样误差
(统计学)方法的一个最大特征是:统计学家深切地认识到误差的存在,并积极地面对可能的误差,而使得经过这套方法所导出的结论,其因误差而产生的暧昧减少。统计学的方法并不能无中生有,但它的确致力于尽量滤去误差,而得到传统方法所不能得到的结论。误差如水,真相若石。水落,所以石出。如果水中原本无石,水落当然也仍然无石。统计方法:围绕着包含了误差的数字,所做的种种精巧的努力。
——赵民德(1999)
以上所说的“误差”是“抽样误差”。本书第16章总复习,“误差”的名词与关联性。