突围算法:机器学习算法应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 数据的统计推论的基本方法

在实际工作中,我们常常会基于数据分析或统计推论来总结数据的规律,即根据抽样的样本数据选择统计量,进而推断数据的总体分布及数值特征等情况。统计推论是数理统计研究的核心。

2.2.1 数据抽样

数据抽样主要用于有效、正确地收集数据,通过样本情况来了解总体。

如果抽样的样本不能代表观测的总体,则抽出的样本存在偏倚。如果使用错误的样本进行分析,则显然会对数据的总体集中趋势、离散趋势和分布形态等进行错误的描述,甚至会形成截然不同的观点,并做出错误的决策。因此,我们需要使用正确的抽样方法做数据抽样,以保证分析结果的准确性。

1.抽样的基本方法

抽样的基本方法包括简单随机抽样、分层抽样、整体抽样和系统抽样等,如表2-6所示。

表2-6

续表

简单随机抽样被使用得最多,但是在选择抽样方法之前,需要适当了解数据的基本特征。

注意:抽样的方法并不一定是一次性抽样,而是一个逐步确定的过程。通过对第一次抽样的样本进行基础数据分析,判断该部分数据与总体数据的基本差异,如果差异过大,则修正抽样方式。

我们可以通过抽样的样本数据对总体数据进行估计,估计的内容包括集中趋势、离散趋势、分布形态等度量指标。同样,根据中心极限定理可知,抽样样本的均值应该约等于总体均值。但是,抽样样本也有与总体存在已知差异的地方,例如,抽样样本的方差比总体的方差略小,这是因为样本的数量少于总体,所以异常值的数量也比总体的要少,故其波动比总体方差小。

2.抽样导致的数据偏差

抽样的样本经过纠正或调整后,可使得样本的数据情况与总体的数据情况类似,但是仍然存在数据偏差现象,典型的偏差类型有样本偏差、幸存者偏差、概率偏差、信息茧房等,如表2-7所示。

表2-7

续表

2.2.2 参数估计

参数估计(Parameter Estimation)是指根据抽取的随机样本来估计总体分布中未知参数的过程。若按照参数估计形式进行分类,则可以分为点估计(Point Estimation)和区间估计(Interval Estimation)两种,它们之间的对比如表2-8所示。

表2-8

1.点估计

总体分布参数在很多情况下是未知的,点估计是使用样本来计算一个值(如均值、方差等)。由于计算的是一个未知的值,因此称作点估计。点估计值通常被当作未知数的最可能的值,例如,估计一个城市的常住人口数量。

在点估计中,常见的估计方法有极大似然估计、最小二乘估计、贝叶斯估计等,估计原理如表2-9所示。

表2-9

当然,对于点估计的最终结果是需要进行评估的,一般来说,评估方法应包括无偏性、有效性和一致性三个方面。

(1)无偏性。如果估计值的期望值等于被估计的参数值,则称此估计量为无偏估计,与之相反,则称为有偏估计。一般来说,若是多次抽样样本的点估计结果均在期望值附近轻微摆动,则可以说估计结果是无偏的。无偏性的直观意义是样本估计量的数值在参数的真值附近摆动。如图2-6所示,中间的小实心圆表示目标值,虚线表示允许的误差范围,一个“×”代表一个估计值。

图2-6

(2)有效性。若估计值越靠近目标,效果越好,则这个靠近可以用方差来衡量。此外,有效性与无偏性没有直接关系,但是当一个参数有多个无偏估计时,则估计方差越小,估计值越有效,如图2-7所示。

图2-7

(3)一致性。在点估计过程中,若随着样本量的不断增大,参数的估计结果均趋于被估计的参数值,则表明估计具有一致性。

2.区间估计

区间估计是以一定的概率保证估计包含总体参数的一个值域。通常是给定置信水平,根据估计值确定真实值可能出现的区间。该区间通常以估计值为中心,被称为置信区间。

用抽样的样本来估计总体是很难达到绝对准确无误的,因此在估计总体指标时,必须同时考虑估计误差的大小区间。一方面,区间估计对范围的大小进行了估计;另一方面,估计了总体指标落在这个区间的概率。区间估计既可以表明估计结果的准确度,又可以表明这个估计结果的可靠度,因此区间估计的结果非常具有逻辑性。

例如,在使用样本均值对总体均值进行估计时,样本均值的分布规律大致如下:

(1)当为大样本时,样本均值服从期望值为总体均值μ、方差为σ2/n的正态分布。

总体均值μ在1-α的置信水平下的置信区间为zα/2标准正态分布的α/2分位点。相当于给样本均值的标准差提供了一个系数。在实际使用时一般是查询标准正态分布表,其中,被称作置信下限,被称作置信上限。

(2)当为小样本时,总体也服从正态分布的前提下,若已知标准差σ,则样本均值服从正态分布,标准化之后服从标准正态分布,总体均值μ在1-α的置信水平下的置信区间为。若未知标准差σ,则样本均值经过标准之化后服从自由度为n-1的t分布,总体均值μ在1-α的置信水平下的置信区间为

区间估计在实际生活中十分常见,即使不懂算法原理也经常会用到。例如,预估明天的气温,一般来说会说气温在30℃左右或30℃~35℃,很少会说31.5℃。如果加上概率,则会说“明天气温90%的概率在30℃~35℃”。

下面用一个示例介绍区间估计的计算。假设果园里有一片桃树,随机测量了49个桃子,平均直径为56mm,标准差为10mm,设定置信水平在95%时计算桃子可能的真实平均直径区间,计算公式为。目前已知样本均值,由标准正态分布表可知,在95%置信水平下系数z=1.96、标准差σ=10、n=49,则桃子在95%的置信水平下真实平均直径区间为(53.2mm, 58.8mm)。

2.2.3 假设检验

假设检验(Hypothesis Testing)是一种统计推断方法,用于判断样本与样本、样本与总体的差异是由抽样误差引起的,还是本质差别造成的。在假设检验中,关键问题有两个:一方面,在原假设成立的情况下,如何计算样本值或某一极端值发生的概率;另一方面,如何界定小概率事件。

1.基本思路

假设检验的基本思路如下:

① 对总体参数值提出假设,又称作原假设;

② 利用样本数据提供的信息验证提出的假设是否成立(即统计推断的过程)。

如果样本数据提供的信息不能证明原假设成立,则应拒绝原假设;反之,如果样本数据提供的信息不能证明原假设不成立,则不应拒绝原假设。

在统计学里面定义了一个P值,用来反映某一事件发生的可能性大小。在假设检验中,一般用P值来衡量检验结果。P值表示当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,则说明原假设情况发生的概率很小;反之,根据小概率原理,则可以拒绝原假设。一般来说,P值越小,结果越显著。

注意:检验结果的显著程度是根据P值的大小和实际情况来定的。

假设检验的核心思想是“小概率反证法”,在假设的前提下,估算某事件发生的可能性。如果该事件是小概率事件,通常在一次检验中是不可能发生的,但是却发生了,这时就可以推翻之前的假设,接受备选假设。

例如,对于假设问题“通过抛硬币猜正反面游戏,判断张三是否具备准确猜硬币正反面的能力”。考虑到一般人不具备该能力,因此原假设为“张三不具备该能力”,备选假设为“张三具备该能力”。

在10次抛硬币猜正反面游戏实验中,假定结果为其中9次张三准确猜出正反面。

判断张三是否具备该能力的方法是,若每次猜对正反面的概率是概率极低,假定猜对8次,则说明张三具备猜硬币正反面的能力。计算猜对8次及以上的概率为式(2-3)。

因此原假设存在比较显著的差异,用1减P值表示备选假设的置信度,因此拒绝原假设,备选假设成立,即张三具备该能力。

常用的假设检验方法有参数检验(Parameter Test)和非参数检验(Non-Parametric Test)两种。一般来说,参数检验会假设总体服从正态分布,样本统计服从t分布,并对总体分布中的一些未知参数进行统计推断。如果总体分布未知并且样本量较小,无法通过中心极限定理推断出总体的集中趋势和离散趋势,则在这种情况下,可以使用非参数检验。非参数检验不对总体分布进行任何假设,而是直接通过样本分析推断总体分布。参数检验和非参数检验的对比如表2-10所示。

表2-10

与参数检验相比,非参数检验的适用范围更广,特别适用于小样本、总体分布未知或偏态、方差不齐,以及混合样本等类型的数据。

2.参数检验

参数检验是在数据分布已知的情况下,对数据分布的参数是否落在相应范围内进行检验。其中,总体分布是给定的或是假定的,只是其中一些参数的取值或范围未知,分析的主要目的是估计参数的取值,或对其进行某种统计检验。参数检验有两类经典的假设问题,总体均值假设问题和总体比例假设问题。

(1)总体均值假设问题。例如,根据某果园的统计资料,上一年该果园苹果的平均重量为203克。为判断该果园今年的苹果重量与上一年相比有无显著差异,从该果园中随机抽取300个苹果,测得其平均重量为196克。从样本数据看,上一年的苹果重量比今年的略高,但这种差异可能是由抽样的随机性带来的,即上一年的苹果重量和今年的并没有显著差异。究竟是否存在显著差异?可以先假设上一年的苹果重量和今年的没有显著差异,然后利用样本信息检验这个假设是否成立。

(2)总体比例假设问题。例如,某厂生产的钢材,按规定该钢材长度不得小于250cm,现从某批钢材中任意抽取50根,发现有3根钢材长度小于250cm。若规定在一批钢材中,钢材长度不合格的比例达到5%就不得出厂,问该批钢材能否出厂?可以先假设该批钢材的不合格率不超过5%,然后用样本不合格率来检验假设是否正确。

参数检验的步骤大致如下:

① 提出原假设H0和备选假设H1H0表示样本与总体或样本与样本间的差异是由抽样误差引起的;H1表示样本与总体或样本与样本间存在本质差异。提前设定检验水准α为0.05或0.01。

② 选定统计检验的方法,由样本观测值按相应的公式计算出统计量的大小,根据数据的类型和特点,可分别选用单样本t检验、F检验、独立样本t检验、配对样本t检验和二项分布检验等,如表2-11所示。

表2-11

续表

③ 根据统计量的大小及其分布,确定检验假设成立的可能性P值的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝原假设H0,即认为差别很可能是由抽样误差造成的,在统计上不成立;如果Pα,结论为按α所取水准显著,拒绝原假设H0,接受备选假设H1,认为此差别不大,可能仅由抽样误差所致,故在统计上成立。

参数检验在实际中应用非常广泛,为了更好地理解参数检验,下面通过示例介绍参数检验的基本思路和方法,如表2-12所示。

表2-12

设该校男生的身高为X,符合正态分布,即XN(μ,σ2),样本均值为、样本标准差为S,需检验假设,即H0:μ=170,H1:μ≠170。由于σ2未知,因此可以采用t检验,当原假设H0为真时:

统计量,拒绝域为

由于n=49,S=15,t0.025(48)≈2.01(查询t检验临界值分布表得来的),可计算|t|:

因此可以接受原假设H0,认为在显著性水平为0.05下,该校男生的平均身高为170cm。

3.非参数检验

非参数检验:对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验。参数检验是针对参数做的假设,非参数检验是针对总体分布情况做的假设,二者的根本区别在于参数检验要用到总体的信息,以总体分布和样本信息对总体参数进行推断,非参数检验则无须利用总体的信息。

非参数检验的检验方法相对较多,但是这些方法是有共性的,基本的思想比较相似,考虑到非参数检验未知总体分布,因此可以通过排秩(排序或相对大小)的方法规避不是正态分布的问题,用抽样样本的排序情况推断总体的分布情况。例如,从已知有序的数值序列中随机抽取几个数值,若抽样数值是降序排列的,则可以估计总体也符合降序排列。非参数检验的部分检验方法如图2-8所示。

图2-8

以二项分布检验为例,假设检验问题为某水生植物在我国河流中的覆盖率是否达到30%(5%显著性水平),通过在国内各个河流中抽样,发现总抽样的121个河流中有48个河流发现了该水生植物的存在。

因此设定原假设H0为该水生植物在我国的河流中覆盖率未超过30%,设定备选假设H1为该水生植物在我国的河流中覆盖率已超过30%。若原假设H0成立,则该覆盖率的总体是一个伯努利分布,因此总体均值为0.3,方差为p(1-p)=0.3×0.7=0.21,标准差约为0.46,无须基于样本的方法进行估计。

根据中心极限定理,样本的均值分布符合正态分布,即此样本的均值等于总体的均值,即0.3,而此正态分布的标准差为总体标准差。而实际抽样的情况是样本均值为,由此可计算出统计量:。查询标准正态分布表单侧0.05的z值结果为1.65,因此拒绝原假设H0

参数检验的效果要优于非参数检验,因此当数据符合参数检验的条件时,建议优先采用参数检验。如果数据条件适当,则可以将数据转换为正态分布的序列;如果数据条件不适当,则采用非参数检验。两者的优/劣势对比如表2-13所示。

表2-13