3.1 箱图
箱图是一种显示数据离散状态的分析图形。通过箱图,能够获得相关数据节点等信息。箱图主要包含6个数据节点:上限、下限、上四分位、中位数、下四分位和异常值。
通常来说,上限位于上四分位加上1.5倍四分位距处,下限位于下四分位减去1.5倍四分位距处(如果样本数据在上四分位加上1.5倍四分位距及下四分位减去1.5倍四分位距处无数据,则上下限即为样本数据的最大值和最小值,这种情况下就没有异常值了)。在箱图中,异常值定义为数据点在样本数据中的位置大于上四分位加上1.5倍四分位距或小于下四分位减去1.5倍四分位距的数据。其中,温和异常值使用“o”表示,极端异常值使用“∗”表示。
在箱图中,箱子占据了样本数据的一半,因而,箱子的宽度在一定程度上反映了数据的波动程度。箱子中间的一条线代表了中位数,其反映了样本数据的平均水平,同时,当中位数偏离上四分位和下四分位中心位置时,数据就表现出一种偏态性,中位数越偏离箱子中心位置,偏态性越强。箱图的另一主要功能是识别数据异常。进行数据分析时,异常数据可能会对分析结果造成影响,因而,通过箱图识别出异常值,并将其剔除,这将有利于数据分析结果的正确性。与其他统计图形相比,箱图可以将多批数据放在同一坐标轴上,并排排列进行对比,使得样本数据特征的分析变得更加容易。
为了更加形象地了解箱图相关结构特点及功能,结合香水实例,使用SPSS Statistics工具绘制出的箱图如图3.1所示,统计分析香水价格的相关情况。
图3.1 香水价格的箱图
图3.1所示箱图有关的几个数据如下。
下限:9.9,由箱子下方的一条线表示,下限由下四分位数减去1.5倍四分位距决定。下四分位:200,由箱子的下边线表示,代表数据的下四分位。中位数:385,由箱子中间的一条线表示,代表数据的中位数,反映了香水价格的平均水平为385。上四分位:600,由箱子的上边线表示,代表数据的上四分位。上限:1189,由箱子上方的一条线表示,上限由上四分位数加上1.5倍的四分位距决定。
从图3.1中可以看到大于上限的圆圈点,这些点就是异常值,分析数据时可将其忽略。此外,这些数据点对应的标号是这些异常点在样本数据之中的位置,可以根据这个位置信息找到该异常点在原始数据中的具体位置。994~1005号数据都是温和异常值,用“o”来表示;1006~1009号数据都是极端异常值,用“∗”表示。
绘制箱图前,有可能需要对数据进行预处理。举例说明:针对香水样本数据,评价量在一定程度上反映销售量,对“探究不同品牌香水评价量相关特征”这一问题进行分析,在未对数据进行预处理之前,使用SPSS Statistics工具绘制箱图,如图3.2所示。
图3.2 不同品牌香水的评价量箱图
由于箱图本身形状怪异,箱子被压扁且有很多的异常值,因而很难从图3.2中得到具体结论。分析其原因,是因为没有对样本数据进行预处理(当然,也不是所有样本数据都需要进行预处理)。针对此类问题,如果数据取值为正数,一个解决方法就是尝试使用对数变换来对数据进行预处理,使幂函数或指数函数的曲线拟合线性化,能够很好地处理不对称分布、非正态分布和异方差等情况。
针对本实例,首先使用对数变换来对样本数据进行预处理。使用底为10的对数进行处理,得到评价的对数变换结果,存储至评价数量这一变量中,然后绘制对数变换后不同品牌香水的评价量箱图,如图3.3所示。
图3.3 对数变换后不同品牌香水的评价量箱图
对比图3.2与图3.3,发现经过对数变换的箱图可更加直观地表现出数据的平均水平、波动程度和偏态等信息。这一点说明不是所有数据都适合画箱图,但是可以利用数据变换进行预处理,使得数据适合用来绘制箱图。
箱图的另一功能是使用定性变量画分组箱图,各个箱图之间作比较。结合前面分析的实例,图3.1只设置了一个定量变量,所以只有一个箱图,而这就让箱图失去了它的一个很重要的功能:多批次数据的对比。而且,一个箱子的箱图是没有必要的,完全可以由直方图来代替。图3.3所示箱图设置了定性变量——商品名称,通过商品名称这一定性变量,就能在一个箱图中绘制多个箱子,在同一水平上对各个箱子相关数据节点进行比较,得到多批次数据之间的关系。