论文题目:
Remaining Useful Life Prediction Via Interactive Attention-Based Deep Spatio-Temporal Network Fusing Multisource Information
论文期刊:IEEE Transactions on Industrial Informatics
论文日期:2023年8月
论文链接:
https://ieeexplore.ieee.org/abstract/document/10230860
作者:Shixiang Lu (a), Zhiwei Gao (a), Qifa Xu (b), Cuixia Jiang (b), Tianming Xie (b), Aihua Zhang (c)
机构:
a: Faculty of Engineering and Environment, Northumbria University, NE1 8ST Newcastle upon Tyne, U.K;
b: School of Management, Hefei University of Technology, Hefei 230009, China;
c: College of Engineering, Bohai University, Jinzhou 121000, China.
团队带头人简介:高志伟教授,天津大学获得博士学位,博士生导师。在加入诺森比亚大学之前,他曾在纽卡斯尔大学、利物浦大学、莱斯特大学、曼彻斯特大学、杜伊斯堡-埃森大学和天津大学担任研究和教学职务,积累了丰富的学术与工程经验。凭借在风力涡轮机系统的实时诊断与控制领域的卓越贡献,他于2023年当选IEEE Fellow。2024年,他获得英国皇家工程院(RAEng)/ Leverhulme Trust研究基金,致力于波能转换系统的实时诊断与健康管理研究。(来源:https://www.northumbria.ac.uk/about-us/our-staff/g/zhiwei-gao/)
1 摘要
2 引言
3 相关工作
3.1 多源数据融合
3.2 注意力机制
4 基于交互注意力的深度时空网络
4.1 网络建立
4.2 网络训练
5 伪代码算法
6 实际工程应用
6.1 网络建立
6.2 网络训练
7 结论
多源数据的涌现为剩余寿命(RUL)预测带来了突破性的机遇。然而,由于工业环境的多样性和工程系统的复杂性,大量机械退化信息隐藏在多种类型的数据中,使得准确捕捉影响寿命的复杂特征成为一大挑战。为此,本文提出了一种基于交互注意力的深度时空网络,用于有效融合振动波形与时变工况信号。具体而言,该模型的时空结构能够同时挖掘原始多源数据的长期依赖关系和局部空间信息,而交互注意力机制可动态调整不同数据源的特征权重。此外,为了适应剩余寿命预测的固有特性,本文在训练过程中设计了一种改进的平均绝对百分比误差(MAPE)损失函数。为验证方法有效性,本文在炼油厂旋转机械和飞机发动机公共数据集上进行了实验研究。广泛的实验结果表明,与仅依赖单一数据源或采用其他融合策略相比,所提出的模型能更高效地整合多源信息,降低预测误差,并取得良好的预测性能。
关键词:深度时空网络,信息融合,交互注意力机制,剩余使用寿命
预测与健康管理(PHM)作为一种有效降低生命周期成本、提升安全性和可靠性的手段,近年来受到了广泛关注[1]-[3]。其中,剩余寿命(RUL)预测是PHM中的核心挑战。准确可靠的RUL预测不仅能实现有效的预测性维护,防止系统因突发故障而造成高昂的非计划停机成本,还能避免灾难性故障和人员伤亡。因此,RUL预测方法的研究对维护决策至关重要,并成为当前的研究热点[4]。
现有的预测方法主要分为基于机理的方法和数据驱动方法两大类。基于机理的方法依赖系统的失效机理先验知识,构建数学模型描述设备的退化过程,典型方法包括粒子滤波(Particle Filter)[5]和指数模型(Exponential Model)[6]。然而,随着现代机械系统内部结构的复杂化和外部环境的多样化,全面准确地获取专业经验和知识变得愈发困难,甚至不可行[7]。数据驱动方法则仅利用历史数据,从机器运行数据中提取有用的退化信息。近年来,人工智能(AI)技术的突破性进展以及大量智能传感器的广泛应用,正加速工业向数据驱动的RUL预测方向发展[8]。传统的机器学习算法,如极限学习机(Extreme Learning Machine)[9]和随机森林(Random Forest, RF)[10]已被应用于RUL预测,并取得了良好效果。然而,这些方法高度依赖特征工程,需要丰富的专业知识来提取关键特征,限制了其应用范围和泛化能力。
深度学习的出现使得本文能够避免手动特征提取,自动实现高层次特征提取与RUL预测的联合优化[11][12]。得益于其强大的表征学习能力,卷积神经网络(CNN)被广泛应用于RUL预测。例如,提出了一个双CNN架构来实现轴承的稳定RUL预测[13]。然而,大多数现有的基于CNN的模型忽视了原始传感数据中的时间依赖性信息,这降低了预测性能并限制了模型的泛化能力[14]。为了解决这一问题,递归神经网络(RNN)被提出,通过使用序列结构来捕获时间历史的时间依赖性[15],这种网络非常适合时间序列分析,能够自然地应用于RUL预测[8]。Gugulothu等人[16]利用基于RNN的序列到序列模型预测涡扇发动机的RUL。为了克服RNN在捕获长期依赖性时导致的梯度消失/爆炸问题,提出了长短期记忆(LSTM)网络和门控循环单元(GRU)网络,它们通过使用门控机制来调节序列信息。然而,LSTM和GRU在处理非平稳时间序列时,未能像CNN那样提取出有价值的退化信息。为了解决这一问题,提出了一种新型的时间卷积网络,用于提取包含时间信息的特征。自从时空序列的降水预报首次应用以来,深度时空网络(DSTN)在工业领域表现出色,广泛应用于时空序列的分析。许多基于DSTN架构的模型在预测任务中表现出了理想的效果。例如,提出了基于深度卷积的LSTM(CLSTM)模型来学习空间特征和序列特征。最近的研究[17]考虑了时空特征在时间维度上的重要性差异,提出了具有自注意力机制的DSTN框架。尽管如此,现有的DSTN变种仍面临两个值得进一步解决的问题,这也促使了本研究的展开。
1) 现有DSTN框架无法有效反映时空特征对RUL预测的不同贡献。不同类型数据所包含的信息量差异巨大,某些原始特征可能与退化机制密切相关,而其他特征可能信息量较少,甚至对预测结果产生负面影响[18]。因此,有必要为关键特征分配更大的权重,以提升预测模型的性能。
2) 现有的大多数研究将预测问题仅视为一般的时间序列回归问题,忽视了其固有特性。具体而言,残差的容忍度会随着实际RUL的不同而变化。通常,在中晚期阶段,容忍度低于早期阶段,原因是早期阶段的特征并不显著[19]。此外,过高估计的成本要远大于低估的成本。过高的预测结果可能导致灾难性事故,而低估的误差则可以通过人工检查得到验证。
为了应对上述挑战,本文提出了一种交互注意力深度时空网络(IA-DSTN),该网络能够有效融合振动信号和四种工况信号进行RUL预测。需要特别指出的是,与传统的时间变化方法不同,本文的模型不需要假设系统服从具有特定退化状态空间的马尔科夫过程。首先,所提出的模型通过DSTN网络,利用一种分层架构从原始数据中提取代表性的空间特征和序列特征。接着,设计了一种交互注意力机制,用于学习振动信号与工况信号的交互贡献,能够动态地为更重要的特征分配更大的权重。除此之外,基于预测的两个固有特性,构建了一种改进的平均绝对百分比误差(m-MAPE)准则,用于引导训练过程。
IA-DSTN的有效性通过在中国某炼油厂旋转机械数据和飞机发动机公共数据集上的实验进行了验证。本文的主要贡献总结如下:
1) 提出了一种新型的IA-DSTN模型,能够捕捉多样的时空相关特征。该模型提供了一种端到端的框架,能够学习多种数据类型之间的交互贡献,从而提升RUL预测的性能。
2) 设计了m-MAPE准则,用于指导模型的训练过程,得到一个可接受且可解释的预测结果。该准则重点关注预测的两个特性:首先,随着设备接近故障,预测应该越来越准确;其次,在高估和低估之间存在权衡时,偏向低估是优选的。
在大数据时代,考虑多源数据融合是有益的,因为不同的数据源提供了关于目标的各种信息[20]。融合多个不完整的数据源可以使目标信息相对完整和一致,并促进更准确的识别和判断。近年来,利用多传感器监测数据进行RUL预测逐渐兴起[15]。Z. Shi[3]和Z. Chen[8]使用了21个传感器信号来预测涡扇发动机的剩余使用寿命。Li等[21]通过五个传感器描述了铣床的工具退化过程。然而,他们大多数都只融合了振动信息和电流信息,而没有考虑操作信息。这使得在具有变化操作信息的系统中,RUL预测框架难以达到理想的性能。根据在预测过程中引入融合策略的阶段,多源融合方法大致可以分为以下三类:数据级融合、特征级融合和决策级融合。第一类方法旨在汇总来自多个来源的原始数据[21]。这种方法的主要优点是数据损失较少[22]。然而,来自多个来源的原始信息往往会产生庞大的输入空间,这带来了难以承受的计算负担。更重要的是,由于原始工业信号通常伴随着不可预测的噪声,这种方法可能会导致模糊的结果。
第二类方法首先在每个传感节点上计算特征。这些单独的特征然后被聚合到一个节点中,以供融合算法使用。这个过程生成了一个较小的空间向量,通过压缩可观察数据,有利于实时处理。与原始观察数据相比,它更具多样性和区分度[23]。通常来说,显著特征选择和融合算法设计是两个关键问题。幸运的是,深度学习将它们结合在一起,因为它可以同时处理各种传感器数据并融合相关信息以进行预测[24]。因此,基于深度学习的特征级融合方法引起了广泛关注并取得了卓越的表现。第三类方法将多个独立预测单元生成的决策整合为一个关于所发生活动的共同决策。其主要优点是低成本和强抗干扰能力[23]。通常,决策级融合应用于回归活动,最常见的策略是平均法[25]和堆叠法[26]。Yang等[13]提出了一种基于平均法的多模型集成框架,用于融合多个电机的振动信号进行RUL预测。在[21]中,采用加权平均策略来准确预测铣床的RUL。Wu等[27]构建了一个多层LSTM堆叠网络,用于预测由多传感器监测的涡轮发动机的RUL。然而,这些方案的缺点是大多数都是两阶段退化建模[19],这意味着很难联合优化这两个阶段。
3.2 注意力机制
最后,用
本文提出了基于多源信号的IA-DSTN模型用于RUL预测。IA-DSTN模型的示意图如图1所示。首先,构建了一个DSTN,用于提取每个原始输入数据的层次特征。其次,采用交互注意力机制来学习不同类型工况特征对基于振动的特征的贡献度。然后,将振动特征和加权操作特征拼接成一个特征向量,并将其输入到回归器函数中进行RUL推断。最后,设计了一种m-MAPE标准来指导IA-DSTN的训练过程。
图1 用于RUL预测的IA-DSTN模型示意图
算法1总结了该模型的算法细节。
本文的预测目标是乙苯净化过程中使用的旋转泵,其工艺流程如图2所示。可以看到,系统配置了两台并联的泵。为了更好地捕捉旋转泵的退化过程,收集了来自多个源的原始数据。其一是由泵本身产生的振动波形,振动传感器安装在轴承的垂直轴上,采样频率为2 kHz。每个样本的长度为8.192秒,共16384个数据点,每2小时重复采样。其他数据是与生产过程相关的数据,包括来自上游回流罐的压力和液位信息,以及输出到下游塔的流量和温度信息。为了方便起见,本文将这些数据称为工况数据。这些工况数据来自制造执行系统,采样频率为每5分钟1个数据点。数据收集的时间范围为2016年10月29日到2017年10月31日,数据来自中国山东省的一家石油炼化厂。在此期间,收集了两条完整的退化轨迹。其中文件的第一条用于模型训练,第二条用于验证。在泵的稳定运行阶段,使用Cox-Stuart检验来监测系统的退化趋势。一旦确认退化趋势,进入泵的剩余使用寿命(RUL)预测阶段。此外,每个工况数据中的缺失值通过随机森林(RF)进行填补。
图2 乙苯提纯工艺流程图
在将数据输入网络进行训练之前,进行了两个预处理步骤:数据重构和归一化。首先,本文将工况数据每2小时汇聚成一个2×12的矩阵,以保持不同数据源的采样间隔一致。每个振动数据被重塑为16×1024的矩阵,以提高计算效率。接下来,使用滑动窗口对这些重塑后的数据片段进行处理,生成3维输入数据。窗口大小为N,滑动步长设置为1。数据的总结如表1所示。
表1 数据总结
6.2 评价指标
本文通过以下五个指标评估所提出的IA-DSTN网络的性能:平均绝对误差(MAE)、均方根误差(RMSE)、m-MAPE、评分函数(SF)和网络的训练时间(Tr.time)。首先,MAE和RMSE是两种不同的聚合方法,用于表示实际RUL和预测RUL之间的绝对差异。它们都对低估和高估施加相同的惩罚。其次,m-MAPE衡量整体相对预测误差,这意味着当实际RUL较大时,应该容忍较大的预测误差。
其中
其中ς是一个较小的值,在本文中设置为0.5。
SF是2012年PHM数据挑战竞赛给出的非对称度量,它量化了相对预测误差和低估与高估之间的差异成本,可以定义为
其中
6.3 主要结果
1) 不同损失函数的影响:为了验证m-MAPE损失函数对RUL预测的有效性,本文比较了IA-DALVE网络上具有不同超参数
为了证实上述内容,本文在图3中给出了这六个损失函数在不同RUL值下的度量。结果表明,当RUL较小时,基于m-MAPE的损失函数,特别是时,可以获得与MSE损失函数相似甚至更好的RMSE和MAE度量。在计算效率方面,IA-DSPOT的最大Tr. time为72.58 min,仅为两次观测间隔的60.48%。
图3 不同损失函数在多个预测RUL值下的指标
IA-DTN的训练和预测过程具有不确定性的影响因素,如网络初始化的随机性、优化梯度的可变性。这些不确定性导致本文在每次独立训练后的预测结果可能不同。为了评估所提出的方法的不确定性并进一步探索m-MAPE的属性,本文对50个试验进行了比较实验,这意味着每个实际RUL有50个预测。随后,通过自适应核密度估计获得这50个预测的概率分布函数,从而表示当前估计的RUL的不确定性。图4示出了通过六个损失函数的IA-DTG的概率密度曲线。随着RUL的减小,基于m-MAPE模型的预测点的波动性逐渐减小。这与当故障点接近时需要更高的预测稳定性的预测问题一致。其次,基于m-MAPE的模型中每个RUL的50个预测的中位数(由蓝色圆圈表示)低于其实际值(由红色三角形表示)。结果表明,与MAE和MSE相比,基于m-MAPE的损失函数往往会低估预测结果,但也优于先进的SC-MSE准则。
图4 不同损失函数估计的概率密度曲线。(a) MAE. (b) MSE. (c) SC-MSE. (d) m-MAPE ε = 0.1. (e) m-MAPE ε = 0.5. (f) m-MAPE ε = 1
2) 消融研究:研究主要包括两个部分:多通道数据融合和IA-DALTH构建。为了说明多传感器数据融合的必要性,本文进行了对比实验,仅使用振动或操作信息。此外,为了评估每个分量在所提出的IA-DNN中的作用,本文实现了三种变体的比较,包括:
1.原始CNN,其中多个原始信号由CNN层提取,然后直接连接用于RUL预测;
2.传统的LSTM,其中使用短时傅立叶变换来提取振动波形的时频域特征,然后将综合后的操作特征和振动特征输入LSTM进行训练;
3.采用sum pooling的DSTOM(P-DSTOM),对DSTOM提取的多个特征进行融合。
表3中的预测结果证实,在除Tr. time之外的所有矩阵中,振动和工况信息的组合使用优于单一信息源的结果。此外,仅使用工况信息甚至比仅使用振动信号差得多。这表明,运行信息不足以反映机械的退化状态,仅仅利用运行信息进行RUL预测会带来很多麻烦。然而,作为振动信息的补充,它确实可以提高预测性能。各种变体的比较表明,具有时间依赖性的模型优于CNN,但增加了时间消耗。相对于DSPRING,本文提出的IA-DSPRING可以减少16.74%的相对误差,提高SF值0.49%。
3)与不同融合策略的比较:为了探索信息融合策略的影响,本文将IA-DAF与三种特征融合策略进行了比较,包括:
1.The wise attention mechanism,它可以增加同一通道上关键特征的权重;
2.动态时间规整(DTW),它量化了在每个时间步长中潜在信息的重要性,并为其分配不同的权重,以提高信息的完整性;
本文还比较了三种常用的决策级融合策略:即等权重集成、加权集成(Ens-W)和堆叠集成(Ens-S)。图5中的结果显示,基于特征融合的策略通常优于基于决策级融合的策略,唯一的轻微劣势是训练过程相对耗时。在特征融合策略的比较中,基于DTW的策略表现较差。相反,IA-DSTN方法能够获得较小的RMSE、MAE和m-MAPE值,以及较大的SF指标,其训练效率稍逊于CW-DSTN。
4)与BenchmarkMethods的比较:为了探索所提出的IA-DSTN在RUL预测方面的优点,本文与几个最先进的基准进行了比较实验,包括深度LSTM (DLSTM)、基于自注意的双向门循环单元(SA-BiGRU)、CNN和LSTM的组合(CNN-LSTM)、深度CLSTM网络、和自注意力机制ConvLSTM (SA-ConvLSTM)。
表4列出了评价结果,本文可以看到DSTN的变体优于DLSTM和CNN-LSTM,说明DSTN结构在复杂特征提取方面具有一定的优势。本文提出的方法在相对误差和非对称评分方面具有优势。潜在的缺点是IA - DSTN的训练比DLSTM、SA-BiGRU和CLSTM更耗时。
表4 基准测试结果
提出的IA-DSTN模型有效地融合了振动数据和四种操作数据进行剩余使用寿命(RUL)预测。IA-DSTN能够从每个原始数据中提取时空特征,并且通过交互注意力机制挖掘每个工况特征相对于振动特征的重要性。在改进后的MAPE损失函数指导下,加权特征被集成用于预测旋转机械的RUL。所提出的IA-DSTN模型已在乙苯净化过程中的旋转泵数据集上进行了评估。结果表明,采用改进版MAPE损失函数的IA-DSTN在低估和高估之间的非对称损失权衡上优于其他先进的损失函数方法。此外,消融实验和各种融合策略的比较验证了本文提出的IA-DSTN结合振动和工况信息能够实现更好的预测性能。通过与最先进的RUL预测方法的比较,IA-DSTN在相对误差和非对称评分方面的优势也得到了证明。