1.4 智能运维的主要关键技术
智能运维是在对设备状态信息的辨识、感知、处理和融合的基础上,监测设备的健康状态,预测设备的性能变化趋势、部件故障发生时机及剩余使用寿命,并采取必要的措施延缓设备的性能衰退进程、排除设备故障的决策和执行过程。可见,智能运维的实施需要满足一定的技术条件,或者说需要突破相关的关键技术。下面给出智能运维几个主要的关键技术。
1. 状态数据监测
随着设备结构的复杂化和运行工况的恶劣化,组成设备的子系统的故障模式复杂多样且相互耦合,对设备及子系统的寿命分布进行描述更为困难,运维管理和维修决策所需的状态数据越来越多,同时对状态数据的精确性和实时性要求也越来越高。以航空发动机为例,由于航空发动机常常工作在高温、高压、高转速等恶劣的环境下,状态监测对于保障航空发动机正常工作、延长使用寿命、及时发现安全隐患具有重要的意义。就类型而言,航空发动机全生命周期的监控参数包括环境参数、性能参数和机械状态参数等。环境参数主要包括温度、压力、高度等;性能参数主要包括燃油流量、输出功率和转速等;机械状态参数主要包括应力、应变、振动、裂纹、烧蚀和润滑油金属颗粒含量等。由于航空发动机具有高温、高压、高转速和高负载的特点,传感器又是发动机最容易出现故障的控制元件之一,因此,如何实时诊断和处理传感器的故障,保证传感器数据采集和处理的可靠性和准确性,是提高航空发动机控制系统可靠性的关键。
2. 状态数据预处理
状态数据的优劣直接影响到智能运维决策的质量。在现实世界中没有不存在噪声的信号,信号中含有内部噪声(如白噪声、散粒噪声、扩散噪声等)和外部噪声(如随机扰动、串扰噪声等)是不可避免的。在高端设备状态数据监测中,由于运行工况恶劣,干扰因素众多,加之传感器质量、监测工艺和人为操作等原因,原始测试数据信号中往往含有噪声或误差。以航空发动机气路参数监测为例,由于气路参数测试过程中常常面临着高温、高压、强振动等测试环境,实际测试数据中经常含有噪声,并通常认为航空发动机的气路参数由纯净信号、高斯噪声和粗大误差组成,即气路参数可以表示为z=z0+ε+θ,其中,z0表示纯净信号,ε表示高斯噪声,θ表示粗大误差。去噪就是去除外界干扰,也就是去除信号中的无效信息。设备状态监测数据噪声来源有多种,粗大误差是其中最重要的一种噪声。粗大误差(gross error)是指明显超出规定条件预期的误差,常简称为“粗差”。产生粗大误差的原因主要包括错误读取指示值,使用有缺陷的测量仪器,测量仪器受到外界振动或电磁干扰而发生指示突变,传输、译码过程中出现错误等。“粗差”的存在会降低测试数据的质量,甚至会歪曲测试结果的本来面目,严重干扰对测试数据的分析,影响数据分析和建模的准确性,例如会影响到发动机性能衰退率计算、性能评估、剩余使用寿命预测等结果的准确性。所以应该在尽可能保持原始测试数据完整性(即主要特征)的同时,去除原始测试数据中无用的粗大误差等信息,提高监测数据的质量[2-3]。
3. 状态特征提取
故障模式是指设备发生故障时的具体表现形式,即故障现象的一种表征。设备故障的发生往往是由一种故障模式或多种故障模式耦合造成的。当设备出现故障时其状态参数会发生某种变化,根据这种状态的变化可以进行设备的故障识别。所以,故障识别实际上就是由特征空间到故障类型空间的映射,这种映射实际上属于故障因果关系的逆问题。在实际故障诊断过程中,为了提高故障诊断的准确性,总是要求尽可能多地采集状态参数和积累故障样本,特别是随着设备结构的日益复杂,要求安装的传感器的类型和数目也越来越多,状态数据采集的时间间隔则越来越短,最后造成设备状态数据的规模越来越大。由于每个状态参数都不同程度地反映了问题域的部分信息,不同状态参数之间包含的信息往往还存在一定程度的重叠,过多的状态参数数目将会增加问题分析的复杂性,同时太多的状态数据量也会占据大量的存储空间和计算时间,甚至还会影响网络模型的训练时间、精度和收敛性。此时需要对大量的原始状态信息进行特征提取,从状态数据中提取对设备诊断贡献大的有用信息,也就是用大大少于原始状态参数数目的特征来充分准确地描述设备的实际运行状态,同时还要使它们较好地保持原有状态的可分性,实现基于较少的特征进行故障诊断的目的。
4. 状态评价与预测
1)状态评价
状态评价就是根据设备的状态数据和评价准则综合评价设备的健康状态,据此决定目前设备是否需要维修,所以状态评价是基于状态的维修策略的基础。随着设备的大型化、复杂化和信息化,设备运行与维修策略对状态评估技术提出了更高的要求。简单的状态信息评估方法已不能满足大型复杂设备运行维修的需求,需要提出一种同时满足实时性、通用性和精确性要求的多维度状态信息综合评估方法,在对在线和离线监测诊断数据、可靠性评价数据、寿命预测数据、历史维修数据、设计制造数据等进行分析的基础上,实现对设备的综合评价。在工程应用中,设备的状态评价常常从性能评价、结构损伤评价和综合评价等方面开展。性能评价又可分为单参数评价和多参数综合评价。结构损伤评价也可以从结构变形、裂纹和磨损等多个方面开展评价。综合评价则是在性能、结构等单方面评价结果基础上实现对设备的综合评价。通过比较每台设备的健康状态,按照评价结果实现从高到低的排队,据此确定哪些设备需要重点关注,形成设备的重点关注清单,并制定最优的送修计划。设备的综合评价是一个复杂的系统工程,特别是对复杂设备的综合评价是一个多目标、多指标的综合评价,这更增加了设备状态评价的难度。评价指标体系的确定、评价信息的获取、评价结果的综合利用等是设备综合评价的关键。
2)状态预测
状态预测是根据设备的历史状态和当前状态,分析其变化趋势并预测其未来的状态,据此决定设备未来某一时刻是否需要进行维修,所以状态预测是基于状态预测的维修策略的基础。状态预测大致可以分为基于机理模型的预测和数据驱动的预测两种。基于机理模型的预测需要完整准确的设计信息和产品模型,由于设计阶段难以全面完整地掌握设备的使用工况,产品的机理模型及基于机理模型的预测结果往往带有一定的近似性。数据驱动的预测由于采用了设备的真实运维数据,预测精度有所提高,但也存在预测结果无法解释的缺点。在工程实践中,当运维数据充足时,数据驱动的预测方法是一种较为常用的预测方法。目前,基于数据驱动的预测大多采用单一模型进行预测,预测模型的结构比较复杂。
复杂设备的状态参数是一个典型的时间序列,并且大多是非线性的时间序列,如何根据历史状态数据挖掘非线性时间序列的变化规律,特别是历史状态参数有噪声时,如何获取设备性能的衰退模式及其变化趋势是状态预测的主要技术难点。复杂设备的性能衰退过程可以用多个性能特征参数的协同演变特征轨迹来表达,因此对复杂设备的状态趋势预测可以利用设备的多元参数轨迹的演变趋势进行外推来实现。目前经典的时间序列预测方法有线性回归预测、二次指数平滑预测、三次指数平滑预测、移动平均预测、卡尔曼滤波预测、贝叶斯预测、模糊逻辑预测、神经网络预测和基于支持向量机的预测等,这些预测方法虽然能够通过滚动预测实现外推范围的延长,但由于误差累积效应,滚动预测方法的预测误差会急剧增加。为此有研究学者提出基于相似性的预测(similarity based prediction,SBP)方法[4-7]、基于过程神经网络的预测方法和基于集成学习机的预测方法等时间序列预测方法[8],这些预测方法取得了较好的应用效果。
5. 故障诊断与溯源
1)故障诊断
故障诊断就是利用传感器测量参数和信号处理获得的特征参数,分析设备发生故障的原因、部位、类型、程度、寿命及其变化趋势等,以制订科学的维护或维修计划,保证设备安全、高效、可靠地运行。
根据基于的理论技术基础,故障诊断方法可以归纳为3类:基于人工智能的方法、基于信号处理的方法和基于动态数学模型的方法。基于人工智能的故障诊断方法是以人工智能技术为核心,目前常用的方法包括神经网络、实例推理、故障树、粗糙集和贝叶斯网络等;基于信号处理的故障诊断方法是以现代信号采集、处理与分析理论和方法为基础,通过对设备运行状态的信号进行变换处理,提取设备故障的特征信息来进行故障诊断,目前常用的方法包括信号的滤波和降噪、时域分析、时序分析、基于傅里叶变化的频域分析、时频分析、瞬态分析、小波变换等;而基于动态数学模型的故障诊断方法是根据设备的运行环境和故障物理机理与征兆,建立相应的动态数学模型,再利用模型来诊断设备故障。
根据采用的故障分析手段,故障诊断方法也可以归纳为3类:模型驱动的诊断方法、数据驱动的诊断方法和联合驱动的诊断方法。模型驱动的诊断方法是根据设备的机理模型和运行数据分析设备的异常并进行故障的诊断,它有赖于设备的设计制造模型,由于设计制造阶段难以完全掌握设备的运行工况,所建立的故障诊断机理模型往往带有一定的近似性,为此模型本身也需要大量的工程应用才能优化完善。数据驱动的诊断方法则不需要对待诊断设备建立机理模型,仅需要对检测数据进行分析、挖掘,并通过合适的分类算法实现诊断。随着移动互联网、大数据、云计算、物联网、人工智能等信息技术的逐步成熟和产业应用,企业感知的状态参数越来越丰富,丰富的状态数据为数据驱动的故障诊断提供了良好的条件。针对传统机理模型参数不准、数据模型缺乏明确物理意义的问题,人们又提出了机理与数据联合驱动的故障诊断方法,通过机理模型和数据模型之间的相互印证,修正机理模型的参数,揭示数据模型所检测出的异常的物理意义,提高故障诊断技术的可靠性。
基于典型案例的故障诊断是基于人工智能的故障诊断技术中最常用的一种方法,它是将基于实例的推理技术应用到故障诊断中。基于典型故障案例的诊断首先对故障案例及其样本数据进行分析、归类与存储,建立特定设备型号的典型故障模式库,寻找参数小偏差值与典型故障类型的对应关系,形成该设备型号的故障诊断指印图。将实际故障样本的参数小偏差与故障指印图中各故障的参数偏差值进行距离量度,再基于距离量度判断实际故障样本与典型故障案例之间的相似度,并将最相似的典型故障案例作为参考故障,指导设备的故障隔离与排故。充足的典型故障样本的获取是故障诊断的基础,如何获得足够的有标签的样本数据以及如何在小样本条件下进行故障诊断是设备故障诊断的一个技术难点。为此,针对典型故障案例缺乏的问题,可以研究小样本条件下基于孪生神经网络的故障诊断方法,实现小样本条件下的故障诊断。
2)故障溯源
故障溯源是通过分析诱发零件、部件或设备系统发生故障的物理、化学、电学与机械过程,建立设备典型故障与引发故障的根源之间的关联关系,实现服务数据驱动的故障原因分析、设计制造缺陷识别和设计制造缺陷部位推断,支持产品设计制造的改进和优化。
当设备设计制造存在缺陷时,会出现性能衰退较快、运行品质不佳、状态数据异常、产品故障频发、操作使用不便、保障维修困难等典型缺陷特征,此时需要提取面向设计、制造、运行和维护4个环节产品缺陷问题的主要影响要素及参数特征,融合和管控产品全寿命周期多源异构数据,构建产品设计制造缺陷的具体类型及评判标准,并通过对运维服务数据中异常数据和故障信息的挖掘以及与典型缺陷案例关联分析,建立面向产品研制的上游和下游不断反馈、解析和利用的数据通道,充分利用机理模型、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程建立数字孪生模型,在虚拟空间中完成实物到数字模型的映射,动态呈现产品运行过程数据的异常、根本原因以及缺陷部位的概率,实现产品设计制造缺陷的智能识别,支持服务数据驱动的产品设计制造缺陷排查和产品质量持续改进。这类故障是由产品设计制造缺陷等深层次原因造成的,必须通过对产品设计制造的改进才能加以排除。
6. 基于状态的维修策略
维修策略是根据设备的健康状态及其变化趋势,确定设备什么时候维修(即维修时机)、做什么维修工作(即维修工作范围)以及需要多少维修费用和备件需求(即维修资源),它是设备智能运维的重要内容。
1)维修时机优化
设备维修时机确定一般是先进行维修时限预测,再建立维修时机优化模型优化设备的维修时机。维修时限预测可分为直接法和间接法两种。影响设备维修时限的因素众多,如设备的故障状态、时间状态、性能状态和初始状态等。直接法首先分析影响维修时限的各个因素并分别确定各单因素对应的维修时限,再取其中的最小值作为设备的最终维修时限。而间接法不直接采用各影响因素进行维修时限的预测,而是通过权值函数将各个因素的指标值转化为权值,再根据权值计算故障测评值、时间测评值、性能测评值、初始测评值及各个因素对应的维修时限,最后得到综合测评值及综合维修时限。维修时机优化属于组合优化问题,与函数优化问题不同,由于“组合爆炸”,很多组合优化问题的求解非常困难。
由于设备前后维修决策之间相互影响,所以还必须在全寿命期内优化设备的维修时机。此时,首先分析影响设备全寿命维修时机的相关因素,建立基于单因素的设备全寿命维修时机优化模型,优化求解基于单因素的设备全寿命维修时间间隔,在此基础上,建立基于多因素的以全寿命全成本最小为目标的设备全寿命维修时机综合优化模型,研究模型的解空间结构,提出模型的求解算法,并求得基于多因素的设备全寿命维修时间间隔以及设备的当次维修时机,为设备维修计划优化奠定基础。
2)维修计划优化
维修计划直接影响到设备的运维成本、备件需求和运行安排。维修计划可以分为短期维修计划和中长期维修计划。短期维修计划一般以周、月或季度为单位,可执行性强。中长期维修计划是具有指导性或预测性的维修计划,它对企业的战略规划具有重要的支持作用。中期维修计划是一种指导性的维修计划,可以以半年或1年为单位。而长期维修计划的作用更倾向于生产预测和维修资源规划,它属于本单位生产方向和任务的纲领性规划,带有战略性、预见性和长期性,它的时间单位比中期维修计划更长。
为了确保生产运营和备件需求的平稳性,在维修计划制定时应考虑到停机维修的均衡性。维修计划是面向设备群体的,必须在单台设备维修时机优化的基础上进行设备群体维修计划的优化。此时首先基于多因素优化设备全寿命的维修时机,建立设备群体短期送修计划优化模型,即基于设备全寿命维修时机优化结果,综合考虑安全约束以及资源约束,建立以设备群体全成本最小为目标的设备群体短期送修计划优化模型,研究模型快速求解的启发式算法及智能优化算法,以此确定每台设备的当次维修时机以及更换的设备,并对算法进行评价。
设备平均送修间隔是中长期送修计划制订的基础,通过收集影响设备全寿命行为的伴随因素及其影响机理,建立考虑协变量的设备使用可靠性模型,得到设备平均送修间隔的统计值,并基于平均送修间隔优化制订设备的中长期送修计划。所以可以以设备群体中长期保障成本最低为目标,构建基于排序理论的设备群体调度方法,建立基于平均送修间隔排序优化的设备群体调度模型,研究求解该模型的启发式算法,寻求设备群体调度最佳排序规则和最佳调度优化方案。进一步,在初始调度方案的基础上,研究设备拆换峰谷平滑方法和优化调度方案,降低设备的保障成本,提高设备的使用效率。为了解决非计划因素扰动下的设备中长期送修计划动态优化问题,可以在基于平均送修间隔的设备中长期送修计划基础上,进一步考虑非计划送修扰动因素对中长期计划的影响,把每一次非计划送修作为触发中长期计划动态优化的时间点,综合当前时间点的最新信息,提出模型参数更新和新的中长期送修计划求解策略,统计非计划送修历史数据,建立非计划送修的时间分布模型,实现考虑非计划送修随机因素的中长期送修计划的优化。
3)维修工作范围确定
维修工作范围确定是根据维修设备的当前状态和维修目标决定设备需要做什么样的维修工作,如哪些部件和单元体需要分解、哪些寿命件需要更换等。维修工作范围是发动机进厂维修的指导,其直接影响到设备的修后性能与维修成本,所以维修工作范围确定是智能运维的重要内容。复杂设备维修工作范围候选方案的规模往往很大,以至于单纯靠人工进行最优方案生成十分困难。以航空发动机为例,航空发动机是由多个单元体组成的复杂机电设备,其整机维修工作范围可以看作各个单元体维修级别的组合,即哪些单元体需要分解和维修、哪些时寿件需要更换等。航空发动机的维修工作范围是进厂维修的指导性文件,其核心内容是航空发动机进厂后所要执行的具体维护维修工作。航空发动机的维修工作范围直接影响发动机的修后性能与可靠性,也直接影响着航空发动机的运维成本。在确定发动机某次的维修工作范围时,存在着多种候选方案。例如,假设一台航空发动机由15个单元体组成,每个单元体有4个维修级别,则共有415种维修工作范围方案。可见,单靠人工从中选择最优的方案不仅需要耗费大量的时间和精力,而且还难以保证维修工作范围的质量,此时需要建立维修工作范围优化模型,以实现维修工作范围优化的自动化。
4)备件需求规划
备件需求规划是指在设备维修计划和维修工作范围基础上,进行备件需求量的预测和优化,使其储备保持在经济合理的水平上,这也是智能运维的重要内容。备件需求规划是备件库存控制的基础,其基础信息来源于设备使用维修过程中产生的状态数据。备件需求会影响到自制备件的生产计划以及外购备件的采购计划,备件库存量过大会增加仓库面积和库存保管费用,占用大量流动资金,造成资金呆滞,增加货款利息,造成资源闲置,影响资源的合理配置和优化;备件库存量过小则会影响售后服务的正常进行,造成服务水平下降,从而影响企业利润和信誉。
基于状态的备件预测的目标是在确保生产运行正常高效的前提下,努力降低备件消耗和备件储备,达到以最少的资金来保证备件的需求供应,使企业获得最佳的经济效益。设备维修计划决定了哪些设备需要维修和什么时候应该维修,而维修工作范围则决定了某台设备需要修什么,哪些零件、部件或单元体需要更换等。由此可见,维修计划和维修工作范围确定后,设备的储备量,例如航空公司的备发量,以及备件需求量就能确定。所以,不同维修计划和维修工作范围的优化模式所确定的设备储备量和备件需求量是不一样的。在事后维修和定时维修决策模式下,企业主要依据历史库存量数据进行同比分析和环比分析,并结合工程师个人经验对备件库存量进行预测。基于同比分析和环比分析的备件库存量确定方法与之前简单的确定一个安全的固定库存量的方法相比具有一定的优点,但同比分析与环比分析的方法仅仅是按照备件需求的历史趋势进行预测,没有考虑设备的实际运行情况,当备件需求的实际趋势与历史趋势相比有较大变动时,可能会产生较大的误差。所以,必须创新备件需求规划方法,采用基于状态预测的备件需求规划策略。