2.1 数据的三个基本维度
数理统计是以概率论为基础发展而来的一个数学分支,包括参数估计、假设检验、相关分析、试验设计、非参数统计、过程统计等,从而为某种问题的决策和行动提供依据。认识数据的基本过程有分析问题、确认问题、收集数据、整理数据、统计推断等,如图2-1所示。
图2-1
我们可以从数据的集中趋势、离散趋势、分布形态三方面对数据进行认识,如表2-1所示。
表2-1
在实际问题中,很多数据看似随机,其实随机中隐藏着规律。因此需要进行足够多次的观察,其规律才能呈现出来。但是客观上,通常只允许进行有限次的观察,即只能获得局部观察资料。因此,数据的概率分布是对数据认识的基础。
2.1.1 集中趋势
集中趋势是一组数据的代表值,表示定量数据聚集在某个集中值周围的趋势情况。最常用的度量指标是算术平均数、中位数和众数等,相应的描述或计算公式如表2-2所示。
表2-2
除表2-2中的度量指标外,类似的指标还有极端值调整平均数等。值得说明的是,算术平均数、中位数、众数等虽然是最常见的集中趋势度量方式,但是它们内在的关系也可以呈现和说明数据的大致分布情况,如图2-2所示。
图2-2
(1)负偏态。当众数大于中位数且中位数大于算术平均数时,则整体属于一个左偏的分布,即数据大部分集中在左侧部分。
(2)正态。当众数、中位数、算术平均数相等时,则整体属于一个比较对称的分布,类似于正态分布,数据分布相对匀称。
(3)正偏态。当众数小于中位数且中位数小于算术平均数时,则整体属于一个右偏的分布,即数据大部分集中在右侧部分。
虽然众数、中位数和算术平均数都是通过一个数值来反映变量集中趋势的,但是它们之间的差异也比较明显:
(1)众数仅表示观测值中最大频次数,因此对观测样本的使用是不完全的;中位数只考虑了观测值的顺序和居中位置,对不按序排序的观测值,无法反映不在中位的观测值的大或小;算术平均数既考虑了频次,又考虑了变量值的大小,因此对整体数据的反应最为灵敏。
(2)虽然算术平均数对观测值利用得最充分,但对严重偏态的分布,会失去它应有的代表性。对于单峰和基本对称的数据,用算术平均数作为集中趋势是合理的。对于偏态的分布,应优先使用中位数来度量集中趋势。
2.1.2 离散趋势
离散趋势反映的是一个分布或随机变量的压缩和拉伸的程度,度量指标主要有方差、标准差、变差系数、四分差、极差等,如表2-3所示。
表2-3
离散趋势如图2-3所示,两图均为正态分布,均值为0,但方差分别为2和1。
这些度量离散程度的值,通常是非负实数:当度量值取零时,表示分布集中在同一个值上;随着度量值的增加,随机变量的取值会越来越分散。
图2-3
2.1.3 分布形态
偏度和峰度是表示数据分布形态的两个典型特征。
1.偏度
偏度用于衡量随机变量概率分布的不对称性,通过对偏度系数的测量,能够判定数据分布的不对称程度及方向。
理想的分布形态是对称的,但在现实生活中数据的分布并不完全对称,而是或多或少地存在不同程度的非对称情况。在统计上,我们把非对称分布称为偏态,度量的方式称作偏度。
偏度的值既可以为正值,也可以为负值。若偏度为正,则称作正偏态(右偏),表示在概率密度函数右侧的尾部比左侧的长,绝大多数观测值位于平均值的左侧。若偏度为负,则称作负偏态(左偏),表示在概率密度函数左侧的尾部比右侧的长,绝大多数观测值位于平均值的右侧。正偏态、正态、负偏态如图2-4所示。
图2-4
偏度的计算公式见式(2-1),其中n表示样本数量,σ为标准差。
根据偏度计算公式,计算偏度的示例如表2-4所示。
表2-4
值得说明的是:一、当偏度为零时,表示数值相对均匀地分布在平均值的两侧,但不一定为对称分布;二、偏度的正偏态、负偏态与数据的集中趋势有一定的关系,如算术平均数、中位数和众数等。
2.峰度
峰度用于衡量实数随机变量分布的峰态,是一个表明数据分布陡峭或平缓的指标。峰度高意味着方差增大是由低频度的大于或小于平均值的极端值引起的。
峰度的表现形式可以总结为峰度越大,则分布形态越陡峭,数值越集中;峰度越小,则分布形态越平缓,数值越分散,如图2-5所示。
图2-5
通常情况下,峰度被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减3。“减3”是为了让正态分布的峰度为0。峰度的计算公式见式(2-2),其中μ4是四阶中心矩,σ是标准差。
式(2-2)也被称为超值峰度,若该峰度值等于零,则表明观测值扁平程度适中;若该峰度值小于零,则为扁平分布;若该峰度值大于零,则为尖峰分布。计算峰度的示例如表2-5所示。
表2-5
峰度在实际工作中有很多参考意义,例如,在方差相同的情况下,峰度越大,则存在极端值的可能性越高。根据笔者的经验,不同统计软件中的峰度计算公式略有差别。