1.5 需要解决的关键科学技术问题
本节主要围绕报警生命周期的三个阶段,即报警配置、报警设计和报警消除,结合1.3节中提到的导致“报警过多、处理困难”的四个原因,归纳总结目前工业报警系统需要解决的八个基础研究问题。
(1)报警配置
报警配置主要涉及报警配置过程变量的选择,报警优先级的确定。这一阶段需要解决三个基础研究问题。
【问题1】是否应该为一个给定的过程变量配置报警变量?对于此问题,本书主要关注的是确定异常事件与过程变量之间的关系,从而选择合适的过程变量来识别异常事件。如果建立了异常事件与过程变量之间的关系,则根据过程变量的变化来反映异常的存在,并配置报警。然而,建立这种关系的现有方法[45,127]都是基于过程知识或从历史操作数据中获得的,这些方法都有其局限性。例如,过程知识往往是不完整的和定性的,而基于数据的方法受到历史数据集中发生的现象的限制,并受到噪声/干扰的污染。因此,解决此问题的主要挑战是如何利用过程知识和历史数据建立关系和如何选择适当的过程变量配置报警。
【问题2】 报警变量应分配哪个优先级?对于此问题,目前在工业实践中的方法大多是定性的,基于对缺失报警的严重性的理解和对处理报警的安全时间的粗略估计。定量方法是作为定性方法的替代或补充而发展起来的。例如,可以从历史数据集获得更准确的安全时间估计。这里的安全时间是时间允许处理警报,以便关联负面后果不会发生。本章参考文献[47]和本章参考文献[46]中的基于风险的方法是有前途的定量方法,用于为报警变量分配优先级。报警优先级可能不是静态的;相反,动态报警优先级对于不同的流程状态和操作场景可能更合理[128]。
【问题3】 现有的报警系统中是否存在配置错误的报警变量?冗余(重复)报警变量是那些总是同时进入报警状态或在一个恒定的时间延迟的报警变量。冗余报警变量不包含有用的信息,不应该配置报警。同时,一些高度相关的报警也可能归结于不正确的报警配置。本章参考文献[31,32,40,42]中列出的相关报警分析方法能够有效检测出冗余、相关报警变量。如果工厂操作人员的行为不能被明确定义为发生了报警事件,那么可能会导致相应的报警变量配置错误。本章参考文献[30,64]将工厂操作人员的动作与已发生的报警事件相关联;如果没有找到操作人员的操作,则判断发生的报警为干扰报警。然而,这样做的问题是许多操作人员的动作或响应没有记录在历史数据库中,即使是记录下来的动作或响应,也很难自动地与已发生的报警事件相关联。
(2)报警设计
报警设计阶段的第一个目标是设计报警产生机制,将配置了报警的过程变量转换为报警变量。这一部分需要解决一个基础研究问题。
【问题4】 如何设计一个性能良好的报警产生机制?设计报警产生机制的一个主要目的是减少由噪声所造成的干扰警报的数目;另一个主要目的是将相关变量纳入报警变量的生成中,此时报警产生机制会有许多不同的形式。想要系统地解决此问题,主要存在两个挑战:首先,要配置报警的过程变量对应的正常/异常工作区很难获得。正常/异常工作区是设计报警产生机制的先决条件,一些物理原理和规律可以用来建立正常或异常情况下过程变量的数学模型。然而,为了容忍正常操作的变化和噪声/扰动的影响,模型参数的不确定性必须根据历史正常和异常历史数据集估计。正常/异常工作区也可以直接根据正常和异常历史数据集建立,但这些数据集通常都不是现成的,需要从历史数据样本中提取。一种方法是通过可视化和向工厂操作人员咨询的方式手动提取,这对小型数据集来说是可取的。本章参考文献[72]提出了一种新的方法来检测不同数据集的样本均值,并通过假设检验将样本均值与报警触发点进行比较,从而分离单一过程变量的正常和异常数据集。但涉及多个过程变量时,静态报警的触发点不能真实反映正常操作区域,如图1.3所示。其次,报警产生机制与性能指标之间的关系难以建立。误报率和漏报率是最常用的性能指标,如何确定报警产生机制与误报率和漏报率之间的定量关系是设计报警产生机制的一个关键点。对符合独立同分布的一维过程变量建立的单变量报警变量来说,这种定量关系已经建立在报警死区、延迟定时器和滤波器上[71,72,79,129]。但在更实际的假设下,如过程变量不是独立同分布、报警变量是多变量等情况,这种定量关系就很难建立。
报警设计阶段的第二个目标是检测正在使用的工业报警系统是否存在干扰报警,以便重新设计报警以减少干扰报警的数量。这一部分需要解决一个基础研究问题。
【问题5】是否有太多的干扰报警,因此需要重新设计报警生成机制?解决此问题的一种方法是基于干扰报警的一些特殊特性,如本章参考文献[67,87]中检测抖动报警和重复报警的基本原理是研究历史报警数据中的报警持续和报警间隔的统计特性。这样做的主要问题是某些干扰报警的特性很难描述,如因为错误的报警产生机制而产生的干扰报警。另一种方法是将工厂操作人员的动作和报警关联起来[30,64]。如果操作员的动作与报警事件的发生相关联,则触发的报警是正确的,否则判断其为干扰报警。然而,正如问题3中提到的情况,这种做法在实践中可能不可行。解决问题5的一个更可行的方法是将发生的报警与其后果联系起来。如果没有检测到有害的结果,则将其判定为干扰报警。报警变量与其后果之间的关系是在报警配置阶段建立的关系。由于噪声或干扰的存在,对结果的检测可能依赖一些假设检验来进行统计分类。在发现干扰报警后,需要评估干扰报警的严重程度,以确定是否有必要重新设计报警系统,或确定哪些报警变量需要优先处理[65-67]。
报警设计阶段的第三个目标是对报警进行预测,以指示即将发生的严重异常。这一部分需要解决一个基础研究问题。
【问题6】 如何设计机制来对报警进行预测,以预测即将发生的关键异常事件?在工业报警系统中,应该尽可能避免报警泛滥的发生,因为“泛滥=事故=损失”[50]。因此,必须预测即将发生的报警泛滥,并采取预防行动,以避免报警泛滥的发生。一种预测报警泛滥的方法是基于物理或混合模型,预测过程变量的演化[130,131]。然而,开发物理模型在技术上具有挑战性,并非常耗时。因此,这种方法只适用于设备数量有限的情况。由于报警泛滥通常由具有物理连接的报警变量组成,历史报警泛滥可能有一定的规律性可供利用。因此,处理报警泛滥的另一种方法是检测相似的历史报警泛滥,并提取这些相似报警泛滥的规则模板,最终通过将当前发生的报警泛滥与这些模板进行比较来预测即将发生的报警。本章参考文献[33,34,132]中使用的方法仅限于从历史数据中检测相似的报警泛滥并提取模板,验证起来非常困难。如果可以通过报警变量的物理连接来补充这些方法,可以得到更令人信服的结论。因此,这一问题的一个主要挑战是如何获得与相似报警泛滥有关的过程知识并将其与历史数据的统计规律性相结合;另一个挑战是如何加快预测报警泛滥时的计算速度。
(3)报警消除
报警清除阶段首先分析导致报警发生的根本原因,并建议运营商采取一些适当的措施避免后果的恶化,并推动过程变量回到其正常操作区,最终将发生的报警消除。这一阶段需要解决两个基础研究问题:
【问题7】 报警发生的根本原因是什么?解决此问题的第一步是判断正在发生的报警是否对应有意义的根源,换句话说,需要判断它们是干扰报警还是正确报警。干扰报警不需要操作人员的行动或响应,移除这些报警是报警设计阶段的主要目标之一。如果一个报警变量总是产生干扰报警,那么就要删除这个报警变量的报警配置。对干扰报警和正确报警进行在线分类是相当困难的,但使用基于统计推断的分类是可行的。对于正确的报警,问题7的目标是找出发生的异常作为报警的根本原因。如果能够建立异常事件与报警变量之间的关系,那么根本原因就可以轻松找到。在这个意义上,问题1和问题7有一个共同的目标,就是建立过程变量和异常状况之间的关系。因此,过程知识和历史操作数据的局限性也是解决问题7的主要挑战。
【问题8】 操作人员应该采取什么行动来处理发生的报警?本章参考文献[49]提出了一种基于多元框架中最佳操作区域的几何过程控制方法,根据此方法对变量的纠正操作给出了建议,这些建议对于帮助操作人员采取适当行动是有价值的。然而,该方法没有涉及平行坐标技术和射影几何理论的技术细节。这些操作建议是不可或缺的,特别是当涉及许多过程和报警变量时,工厂操作人员必须根据其后果的严重程度按顺序处理报警,避免过程变量进一步偏离正常作业区域,导致事故的加剧。这与问题2密切相关,在问题2中,主要的挑战是制定定量方法及完全基于过程知识的方法。在报警泛滥方面,最好的行动也许是根据问题6中的报警泛滥预测结果来采取预防措施,以避免报警泛滥的发生。
对于其中的一些问题,已经进行了相关的研究,研究结果将在本书剩余章节进行介绍。还有若干问题尚未得到解决,将在后续的工作中着重研究。