智能运维技术及应用
上QQ阅读APP看书,第一时间看更新

2.2 状态数据的粗大误差去除

2.2.1 粗大误差去除原理及方法分析

粗大误差是指明显超出规定条件预期的误差,简称为“粗差”。判别粗大误差的数学方法很多,可分为基于统计的方法、基于距离的方法、基于密度的方法和基于聚类的方法等。基于统计的异常值检测是将不属于假定分布的数据看作异常值,这种方法虽然在数据充分时很有效,但在实际中,数据的分布一般是未知的。基于距离的异常值检测的基本思想是将远离大部分其他数据的对象看作异常值,此方法原理虽然简单,但不能处理具有多个密度区域的数据集。基于密度的异常值检测是根据样本点邻域内的密度状况来判断是否属于异常点,邻域大小的选择对结果影响很大。基于聚类的异常值检测则将不属于任何簇的数据看作异常值,然而属于或不属于的界限对结果影响很大。

常用的粗大误差判别方法,比如拉依达准则、格拉布斯准则、罗曼诺夫斯基准则、狄克松准则等,都要求状态数据是独立同分布的。设备的状态数据大多为时间序列数据,其参数值会随着时间、外界环境以及工况的转变而变化,一般不满足独立同分布条件。对于时序数据粗大误差的判别,目前主要有两类方法——基于历史采样点的判别和基于过程模型的判别,但都比较复杂。通过对航空发动机等设备状态数据的观察,可以发现短期内监控数据会有一定波动且没有明显变化趋势。因此可以将状态数据按照采样顺序进行分组,每组包含相同数目的采样点,这样每组数据就可以近似看成是独立同分布了,最后再采用常用的粗大误差处理方法对数据进行处理。常用的粗大误差判别方法测量次数范围如表2-1所示。

表2-1 粗大误差判别方法测量次数范围