首页/文章/ 详情

一区TOP论文学习 | 基于交互注意力的深度时空网络融合多源信息的剩余寿命预测方法

3小时前浏览4
    本期分享高志伟教授团队的论文投稿:基于交互注意力的深度时空网络融合多源信息的剩余寿命预测方法。多源数据的涌现为剩余寿命(RUL)预测带来新机遇,但工业环境的多样性和系统复杂性使机械退化信息难以充分提取。针对这一挑战,本文提出了一种基于交互注意力的深度时空网络,用于有效融合振动波形与时变工况信号。该模型的时空结构能够同时挖掘原始多源数据的长期依赖性和局部空间信息,而交互注意力机制可动态衡量不同数据源的特征贡献。此外,针对寿命预测的固有特性,设计了一种改进的损失函数以优化训练过程。本文在炼油厂旋转机械数据集上进行了实验验证。结果表明,与单一数据源或不同融合策略相比,所提模型能更有效地整合多源信息并获得优异的性能。

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:

    Remaining Useful Life Prediction Via Interactive Attention-Based Deep Spatio-Temporal Network Fusing Multisource Information

    论文期刊:IEEE Transactions on Industrial Informatics

    论文日期:2023年8月

    论文链接:

    https://ieeexplore.ieee.org/abstract/document/10230860

    作者:Shixiang Lu (a), Zhiwei Gao (a), Qifa Xu (b), Cuixia Jiang (b), Tianming Xie (b), Aihua Zhang (c)

    机构:

    a: Faculty of Engineering and Environment, Northumbria University, NE1 8ST Newcastle upon Tyne, U.K;

    b: School of Management, Hefei University of Technology, Hefei 230009, China;

    c: College of Engineering, Bohai University, Jinzhou 121000, China.

    团队带头人简介:高志伟教授天津大学获得博士学位,博士生导师。在加入诺森比亚大学之前,他曾在纽卡斯尔大学、利物浦大学、莱斯特大学、曼彻斯特大学、杜伊斯堡-埃森大学和天津大学担任研究和教学职务,积累了丰富的学术与工程经验。凭借在风力涡轮机系统的实时诊断与控制领域的卓越贡献,他于2023年当选IEEE Fellow。2024年,他获得英国皇家工程院(RAEng)/ Leverhulme Trust研究基金,致力于波能转换系统的实时诊断与健康管理研究。(来源:https://www.northumbria.ac.uk/about-us/our-staff/g/zhiwei-gao/)

    目录

    1 摘要

    2 引言

    相关工作

    3.1 多源数据融合

    3.2 注意力机制

    基于交互注意力的深度时空网络

    4.1 网络建立

    4.2 网络训练

    5 伪代码算法

    实际工程应用

    6.1 网络建立

    6.2 网络训练

    7 结论

    1 摘要

    多源数据的涌现为剩余寿命(RUL)预测带来了突破性的机遇。然而,由于工业环境的多样性和工程系统的复杂性,大量机械退化信息隐藏在多种类型的数据中,使得准确捕捉影响寿命的复杂特征成为一大挑战。为此,本文提出了一种基于交互注意力的深度时空网络,用于有效融合振动波形与时变工况信号。具体而言,该模型的时空结构能够同时挖掘原始多源数据的长期依赖关系和局部空间信息,而交互注意力机制可动态调整不同数据源的特征权重。此外,为了适应剩余寿命预测的固有特性,本文在训练过程中设计了一种改进的平均绝对百分比误差(MAPE)损失函数。为验证方法有效性,本文在炼油厂旋转机械和飞机发动机公共数据集上进行了实验研究。广泛的实验结果表明,与仅依赖单一数据源或采用其他融合策略相比,所提出的模型能更高效地整合多源信息,降低预测误差,并取得良好的预测性能。

    关键词:深度时空网络,信息融合,交互注意力机制,剩余使用寿命

    2 引言

    预测与健康管理(PHM)作为一种有效降低生命周期成本、提升安全性和可靠性的手段,近年来受到了广泛关注[1]-[3]。其中,剩余寿命(RUL)预测是PHM中的核心挑战。准确可靠的RUL预测不仅能实现有效的预测性维护,防止系统因突发故障而造成高昂的非计划停机成本,还能避免灾难性故障和人员伤亡。因此,RUL预测方法的研究对维护决策至关重要,并成为当前的研究热点[4]。

    现有的预测方法主要分为基于机理的方法和数据驱动方法两大类。基于机理的方法依赖系统的失效机理先验知识,构建数学模型描述设备的退化过程,典型方法包括粒子滤波(Particle Filter)[5]和指数模型(Exponential Model)[6]。然而,随着现代机械系统内部结构的复杂化和外部环境的多样化,全面准确地获取专业经验和知识变得愈发困难,甚至不可行[7]。数据驱动方法则仅利用历史数据,从机器运行数据中提取有用的退化信息。近年来,人工智能(AI)技术的突破性进展以及大量智能传感器的广泛应用,正加速工业向数据驱动的RUL预测方向发展[8]。传统的机器学习算法,如极限学习机(Extreme Learning Machine)[9]和随机森林(Random Forest, RF)[10]已被应用于RUL预测,并取得了良好效果。然而,这些方法高度依赖特征工程,需要丰富的专业知识来提取关键特征,限制了其应用范围和泛化能力。

    深度学习的出现使得本文能够避免手动特征提取,自动实现高层次特征提取与RUL预测的联合优化[11][12]。得益于其强大的表征学习能力,卷积神经网络(CNN)被广泛应用于RUL预测。例如,提出了一个双CNN架构来实现轴承的稳定RUL预测[13]。然而,大多数现有的基于CNN的模型忽视了原始传感数据中的时间依赖性信息,这降低了预测性能并限制了模型的泛化能力[14]。为了解决这一问题,递归神经网络(RNN)被提出,通过使用序列结构来捕获时间历史的时间依赖性[15],这种网络非常适合时间序列分析,能够自然地应用于RUL预测[8]。Gugulothu等人[16]利用基于RNN的序列到序列模型预测涡扇发动机的RUL。为了克服RNN在捕获长期依赖性时导致的梯度消失/爆炸问题,提出了长短期记忆(LSTM)网络和门控循环单元(GRU)网络,它们通过使用门控机制来调节序列信息。然而,LSTM和GRU在处理非平稳时间序列时,未能像CNN那样提取出有价值的退化信息。为了解决这一问题,提出了一种新型的时间卷积网络,用于提取包含时间信息的特征。自从时空序列的降水预报首次应用以来,深度时空网络(DSTN)在工业领域表现出色,广泛应用于时空序列的分析。许多基于DSTN架构的模型在预测任务中表现出了理想的效果。例如,提出了基于深度卷积的LSTM(CLSTM)模型来学习空间特征和序列特征。最近的研究[17]考虑了时空特征在时间维度上的重要性差异,提出了具有自注意力机制的DSTN框架。尽管如此,现有的DSTN变种仍面临两个值得进一步解决的问题,这也促使了本研究的展开。

    1) 现有DSTN框架无法有效反映时空特征对RUL预测的不同贡献。不同类型数据所包含的信息量差异巨大,某些原始特征可能与退化机制密切相关,而其他特征可能信息量较少,甚至对预测结果产生负面影响[18]。因此,有必要为关键特征分配更大的权重,以提升预测模型的性能。

    2) 现有的大多数研究将预测问题仅视为一般的时间序列回归问题,忽视了其固有特性。具体而言,残差的容忍度会随着实际RUL的不同而变化。通常,在中晚期阶段,容忍度低于早期阶段,原因是早期阶段的特征并不显著[19]。此外,过高估计的成本要远大于低估的成本。过高的预测结果可能导致灾难性事故,而低估的误差则可以通过人工检查得到验证。

    为了应对上述挑战,本文提出了一种交互注意力深度时空网络(IA-DSTN),该网络能够有效融合振动信号和四种工况信号进行RUL预测。需要特别指出的是,与传统的时间变化方法不同,本文的模型不需要假设系统服从具有特定退化状态空间的马尔科夫过程。首先,所提出的模型通过DSTN网络,利用一种分层架构从原始数据中提取代表性的空间特征和序列特征。接着,设计了一种交互注意力机制,用于学习振动信号与工况信号的交互贡献,能够动态地为更重要的特征分配更大的权重。除此之外,基于预测的两个固有特性,构建了一种改进的平均绝对百分比误差(m-MAPE)准则,用于引导训练过程。

    IA-DSTN的有效性通过在中国某炼油厂旋转机械数据和飞机发动机公共数据集上的实验进行了验证。本文的主要贡献总结如下:

    1) 提出了一种新型的IA-DSTN模型,能够捕捉多样的时空相关特征。该模型提供了一种端到端的框架,能够学习多种数据类型之间的交互贡献,从而提升RUL预测的性能。

    2) 设计了m-MAPE准则,用于指导模型的训练过程,得到一个可接受且可解释的预测结果。该准则重点关注预测的两个特性:首先,随着设备接近故障,预测应该越来越准确;其次,在高估和低估之间存在权衡时,偏向低估是优选的。

    3 相关工作

    3.1 多源数据融合

    在大数据时代,考虑多源数据融合是有益的,因为不同的数据源提供了关于目标的各种信息[20]。融合多个不完整的数据源可以使目标信息相对完整和一致,并促进更准确的识别和判断。近年来,利用多传感器监测数据进行RUL预测逐渐兴起[15]。Z. Shi[3]和Z. Chen[8]使用了21个传感器信号来预测涡扇发动机的剩余使用寿命。Li等[21]通过五个传感器描述了铣床的工具退化过程。然而,他们大多数都只融合了振动信息和电流信息,而没有考虑操作信息。这使得在具有变化操作信息的系统中,RUL预测框架难以达到理想的性能。根据在预测过程中引入融合策略的阶段,多源融合方法大致可以分为以下三类:数据级融合、特征级融合和决策级融合。第一类方法旨在汇总来自多个来源的原始数据[21]。这种方法的主要优点是数据损失较少[22]。然而,来自多个来源的原始信息往往会产生庞大的输入空间,这带来了难以承受的计算负担。更重要的是,由于原始工业信号通常伴随着不可预测的噪声,这种方法可能会导致模糊的结果。

    第二类方法首先在每个传感节点上计算特征。这些单独的特征然后被聚合到一个节点中,以供融合算法使用。这个过程生成了一个较小的空间向量,通过压缩可观察数据,有利于实时处理。与原始观察数据相比,它更具多样性和区分度[23]。通常来说,显著特征选择和融合算法设计是两个关键问题。幸运的是,深度学习将它们结合在一起,因为它可以同时处理各种传感器数据并融合相关信息以进行预测[24]。因此,基于深度学习的特征级融合方法引起了广泛关注并取得了卓越的表现。第三类方法将多个独立预测单元生成的决策整合为一个关于所发生活动的共同决策。其主要优点是低成本和强抗干扰能力[23]。通常,决策级融合应用于回归活动,最常见的策略是平均法[25]和堆叠法[26]。Yang等[13]提出了一种基于平均法的多模型集成框架,用于融合多个电机的振动信号进行RUL预测。在[21]中,采用加权平均策略来准确预测铣床的RUL。Wu等[27]构建了一个多层LSTM堆叠网络,用于预测由多传感器监测的涡轮发动机的RUL。然而,这些方案的缺点是大多数都是两阶段退化建模[19],这意味着很难联合优化这两个阶段。

    3.2 注意力机制

    注意力机制是一种有效的方法,通过自适应地为输入特征生成系数,为更相关的特征分配更多权重,而无需手动操作,从而提高预测的准确性。目前,自注意力在RUL预测的网络结构中取得了很大的进展。为了详细描述注意力机制的实现,首先假设本文给定了一个由深度神经网络生成的隐藏状态向量  。其中 n 是隐藏状态的长度。接下来,本文可以通过以下方式获得注意力向量:
        
    其中s是sigmoid函数,其可以定义为:
        
    其中s 和b分别表示权重矩阵和偏置。这两种方法都可以通过多层感知器网络来学习。tanh是一个非线性激活函数,本文可以得到由注意机制动态加权的隐藏状态为
          

    最后,用  代替h进行目标预测。然而,自注意机制只能强调其自身的有用信息。它不捕获不同序列之间的关系。针对这一问题,本文提出了一种新的旋转机械多源信息融合交互机制。据作者所知,这是首次尝试在RUL预测中利用交互注意机制自适应地对不同序列进行加权。

    4 基于交互注意力的DSTN

    本文提出了基于多源信号的IA-DSTN模型用于RUL预测。IA-DSTN模型的示意图如图1所示。首先,构建了一个DSTN,用于提取每个原始输入数据的层次特征。其次,采用交互注意力机制来学习不同类型工况特征对基于振动的特征的贡献度。然后,将振动特征和加权操作特征拼接成一个特征向量,并将其输入到回归器函数中进行RUL推断。最后,设计了一种m-MAPE标准来指导IA-DSTN的训练过程。

    图1 用于RUL预测的IA-DSTN模型示意图

    4.1 网络建立
    1) 深度时空网络(DSTN)DSTN是一种特殊的RNN结构,结合了CNN和LSTM的特点,用于同时建模局部空间特征和时间序列。它的一个显著特点是,输入X、细胞输出C、隐藏状态H和门控i、f、o都是3维张量。通过输入到状态和状态到状态的卷积运算,DSTN能够轻松地利用输入和局部邻域的过去状态来获取某个细胞的下一个状态。因此,CNN提取的特征表示可以扩展到更长时间的卷积,这使得在具有长时依赖性的情况下进行RUL预测成为可能。DSTN结构如上述图1所示。
    2) 交互注意力机制:交互注意力机制可以动态地捕捉两个序列之间更重要的信息,从而更好地学习特征到目标的映射。所提出的交互注意力模型可以在每种工况表示和振动表示之间进行显式的交互。其过程可以总结如下:
    首先,本文通过DSTN获取由振动信号生成的隐藏状态  ,作为振动信号的最终表示。流量信号的隐藏状态  也可以通过DSTN单独获得。
    其次,通过对隐态进行平均,得到振动的初始特征:
        
    第三,本文对工况特征与振动特征的相互作用进行建模,并且流量信号的聚合特征向量(例如压力hp)可以写为
        
    其中,  用于动态调整  相对于  的权重,它可以定义为:
        
    其中,  是得分函数,其可以通过下式获得
        
    其中,  和  分别表示权重矩阵和偏置。  是  的转置。与自注意力机制相比,交互注意力机制的一个显著区别是用来衡量两个隐藏状态之间的动态变化。
    3) RUL预测:融合特征向量F可以通过将振动的聚合特征向量与各种操作特征连接来获得
         
    在网络的输出端,融合的特征向量F被馈送到两个完全连接的层中。第一个使用ReLU激活函数来获得总的潜在状态:
         
    然后,构造一个具有sigmoid激活函数的回归模型,对多源融合特征到RUL标签的映射进行建模。具体模型为
        
    4.2 网络训练
    1) 损失函数选择:由于均方误差(MSE)具有对称、连续和可微的性质,因此在RUL预测中使用最广泛的损失函数是MSE。为了更好地满足RUL预测的固有特性,本文开发了一种新的损失函数,可以看作是m-MAPE。注意,基于MAPE的度量被广泛用于模型性能评估,而忽略了它作为损失函数的作用,它可以促进低估和高估之间不对称损失的权衡。据作者所知,MAPE损失函数尚未应用于RUL预测。
    早期异常发生时,退化特征不显著,预测误差自然较大。换句话说,实际RUL越小,预测就越准确。在运行成本方面,低估可能意味着不必要的维护检查,而高估可能导致灾难性的伤亡。然而,限制MAPE应用的一个缺点是,如果存在零值,则会因为偏差除以零而造成尴尬。为了解决这个问题,本文修改损失函数为
        
    其中    为预设的小值。根据大量的实证实验,建议取值范围为    ,其中Iy的最小单位,则m-MAPE可以写成
         
    其中N为实例总数。
    2) 优化过程:通过反向传播算法对IA-DSTN进行端到端训练。采用自适应矩估计对总函数进行优化,并将参数W更新为
         
    其中η是学习率。由于RUL是非负值,损失函数对权向量W的导数可以定义为
        
    其中Z为最后一个隐藏层的融合特征向量。

    5 伪代码算法

    算法1总结了该模型的算法细节。

    6 实际工程应用

    6.1 数据

    本文的预测目标是乙苯净化过程中使用的旋转泵,其工艺流程如图2所示。可以看到,系统配置了两台并联的泵。为了更好地捕捉旋转泵的退化过程,收集了来自多个源的原始数据。其一是由泵本身产生的振动波形,振动传感器安装在轴承的垂直轴上,采样频率为2 kHz。每个样本的长度为8.192秒,共16384个数据点,每2小时重复采样。其他数据是与生产过程相关的数据,包括来自上游回流罐的压力和液位信息,以及输出到下游塔的流量和温度信息。为了方便起见,本文将这些数据称为工况数据。这些工况数据来自制造执行系统,采样频率为每5分钟1个数据点。数据收集的时间范围为2016年10月29日到2017年10月31日,数据来自中国山东省的一家石油炼化厂。在此期间,收集了两条完整的退化轨迹。其中文件的第一条用于模型训练,第二条用于验证。在泵的稳定运行阶段,使用Cox-Stuart检验来监测系统的退化趋势。一旦确认退化趋势,进入泵的剩余使用寿命(RUL)预测阶段。此外,每个工况数据中的缺失值通过随机森林(RF)进行填补。

    图2 乙苯提纯工艺流程图

    在将数据输入网络进行训练之前,进行了两个预处理步骤:数据重构和归一化。首先,本文将工况数据每2小时汇聚成一个2×12的矩阵,以保持不同数据源的采样间隔一致。每个振动数据被重塑为16×1024的矩阵,以提高计算效率。接下来,使用滑动窗口对这些重塑后的数据片段进行处理,生成3维输入数据。窗口大小为N,滑动步长设置为1。数据的总结如表1所示。

    表1 数据总结  


    6.2 评价指标

    本文通过以下五个指标评估所提出的IA-DSTN网络的性能:平均绝对误差(MAE)、均方根误差(RMSE)、m-MAPE、评分函数(SF)和网络的训练时间(Tr.time)。首先,MAE和RMSE是两种不同的聚合方法,用于表示实际RUL和预测RUL之间的绝对差异。它们都对低估和高估施加相同的惩罚。其次,m-MAPE衡量整体相对预测误差,这意味着当实际RUL较大时,应该容忍较大的预测误差。

         

    其中    表示实例i的绝对百分比误差,它可以定义为实际和预测RUL之间的绝对差除以实际RUL:

        

    其中ς是一个较小的值,在本文中设置为0.5。

    SF是2012年PHM数据挑战竞赛给出的非对称度量,它量化了相对预测误差和低估与高估之间的差异成本,可以定义为

          

    其中    表示每个实例对应的分数

          

    6.3 主要结果

    1) 不同损失函数的影响:为了验证m-MAPE损失函数对RUL预测的有效性,本文比较了IA-DALVE网络上具有不同超参数  的三种m-MAPE损失的实验性能。此外,传统MAE、MSE和新型形状约束MSE(SC-MSE)损失下的结果可作为所提出标准的基线。比较结果列于表III中。可以看出,当考虑相对误差和低估与高估之间的非对称损失时,当  时,m-MAPE损失函数的IA-DSTK优于其他竞争方法。就MSE和MAE指标而言,其性能仅略差于基于MSE损失函数的模型。据推测,这是因为在退化初期,虽然模型保持较小的相对误差,但绝对误差可能会出现一定程度的波动。

    表2 不同损失函数的结果

    为了证实上述内容,本文在图3中给出了这六个损失函数在不同RUL值下的度量。结果表明,当RUL较小时,基于m-MAPE的损失函数,特别是时,可以获得与MSE损失函数相似甚至更好的RMSE和MAE度量。在计算效率方面,IA-DSPOT的最大Tr. time为72.58 min,仅为两次观测间隔的60.48%。

    图3 不同损失函数在多个预测RUL值下的指标

    IA-DTN的训练和预测过程具有不确定性的影响因素,如网络初始化的随机性、优化梯度的可变性。这些不确定性导致本文在每次独立训练后的预测结果可能不同。为了评估所提出的方法的不确定性并进一步探索m-MAPE的属性,本文对50个试验进行了比较实验,这意味着每个实际RUL有50个预测。随后,通过自适应核密度估计获得这50个预测的概率分布函数,从而表示当前估计的RUL的不确定性。图4示出了通过六个损失函数的IA-DTG的概率密度曲线。随着RUL的减小,基于m-MAPE模型的预测点的波动性逐渐减小。这与当故障点接近时需要更高的预测稳定性的预测问题一致。其次,基于m-MAPE的模型中每个RUL的50个预测的中位数(由蓝色圆圈表示)低于其实际值(由红色三角形表示)。结果表明,与MAE和MSE相比,基于m-MAPE的损失函数往往会低估预测结果,但也优于先进的SC-MSE准则。

    图4 不同损失函数估计的概率密度曲线。(a) MAE. (b) MSE. (c) SC-MSE. (d) m-MAPE ε = 0.1. (e) m-MAPE ε = 0.5. (f) m-MAPE ε = 1

    2) 消融研究:研究主要包括两个部分:多通道数据融合和IA-DALTH构建。为了说明多传感器数据融合的必要性,本文进行了对比实验,仅使用振动或操作信息。此外,为了评估每个分量在所提出的IA-DNN中的作用,本文实现了三种变体的比较,包括:

    1.原始CNN,其中多个原始信号由CNN层提取,然后直接连接用于RUL预测; 

    2.传统的LSTM,其中使用短时傅立叶变换来提取振动波形的时频域特征,然后将综合后的操作特征和振动特征输入LSTM进行训练; 

    3.采用sum pooling的DSTOM(P-DSTOM),对DSTOM提取的多个特征进行融合。

    表3中的预测结果证实,在除Tr. time之外的所有矩阵中,振动和工况信息的组合使用优于单一信息源的结果。此外,仅使用工况信息甚至比仅使用振动信号差得多。这表明,运行信息不足以反映机械的退化状态,仅仅利用运行信息进行RUL预测会带来很多麻烦。然而,作为振动信息的补充,它确实可以提高预测性能。各种变体的比较表明,具有时间依赖性的模型优于CNN,但增加了时间消耗。相对于DSPRING,本文提出的IA-DSPRING可以减少16.74%的相对误差,提高SF值0.49%。

    表3 消融研究结果

    3)与不同融合策略的比较:为了探索信息融合策略的影响,本文将IA-DAF与三种特征融合策略进行了比较,包括:

    1.The wise attention mechanism,它可以增加同一通道上关键特征的权重;  

    2.动态时间规整(DTW),它量化了在每个时间步长中潜在信息的重要性,并为其分配不同的权重,以提高信息的完整性;

    本文还比较了三种常用的决策级融合策略:即等权重集成、加权集成(Ens-W)和堆叠集成(Ens-S)。图5中的结果显示,基于特征融合的策略通常优于基于决策级融合的策略,唯一的轻微劣势是训练过程相对耗时。在特征融合策略的比较中,基于DTW的策略表现较差。相反,IA-DSTN方法能够获得较小的RMSE、MAE和m-MAPE值,以及较大的SF指标,其训练效率稍逊于CW-DSTN。

    图5 不同融合策略的结果。(a) RMSE. (b) MAE. (c) m-MAPE. (d) SF. (e) Tr.time

    4)与BenchmarkMethods的比较:为了探索所提出的IA-DSTN在RUL预测方面的优点,本文与几个最先进的基准进行了比较实验,包括深度LSTM (DLSTM)、基于自注意的双向门循环单元(SA-BiGRU)、CNN和LSTM的组合(CNN-LSTM)、深度CLSTM网络、和自注意力机制ConvLSTM (SA-ConvLSTM)。

    表4列出了评价结果,本文可以看到DSTN的变体优于DLSTM和CNN-LSTM,说明DSTN结构在复杂特征提取方面具有一定的优势。本文提出的方法在相对误差和非对称评分方面具有优势。潜在的缺点是IA - DSTN的训练比DLSTM、SA-BiGRU和CLSTM更耗时。

    表4 基准测试结果


    7 结论

    提出的IA-DSTN模型有效地融合了振动数据和四种操作数据进行剩余使用寿命(RUL)预测。IA-DSTN能够从每个原始数据中提取时空特征,并且通过交互注意力机制挖掘每个工况特征相对于振动特征的重要性。在改进后的MAPE损失函数指导下,加权特征被集成用于预测旋转机械的RUL。所提出的IA-DSTN模型已在乙苯净化过程中的旋转泵数据集上进行了评估。结果表明,采用改进版MAPE损失函数的IA-DSTN在低估和高估之间的非对称损失权衡上优于其他先进的损失函数方法。此外,消融实验和各种融合策略的比较验证了本文提出的IA-DSTN结合振动和工况信息能够实现更好的预测性能。通过与最先进的RUL预测方法的比较,IA-DSTN在相对误差和非对称评分方面的优势也得到了证明。

    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除
    点击左下角阅读原文,即可在线阅读论文。

    来源:故障诊断与python学习
    ACT振动非线性旋转机械航空ANSAUGpython海洋UM声学电机化机爆炸人工智能
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-02-25
    最近编辑:3小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 77粉丝 86文章 174课程 0
    点赞
    收藏
    作者推荐

    3min创新点Get!| 基于高质量伪标签的滚动轴承故障诊断集成自适应网络

    欢迎关注我们的专题文章——“3min创新点Get!”。本专题我们将按照“问题来源——解决途径——创新点”的结构帮助读者了解文章结构并快速捕捉创新点。本期关键词:集成学习,无监督领域自适应论文基本信息论文题目:An Ensemble Domain Adaptation Network With High-Quality Pseudo Labels for Rolling Bearing Fault Diagnosis论文期刊:IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT论文日期:2024年4月论文链接: 10.1109/TIM.2024.3385812作者:Ming Xie (a), Jianxin Liu (a) , Yifan Li (b), Ke Feng (c), and Qing Ni(d)机构:(a) The State Key Laboratory of Rail Transit Vehicle System, Southwest Jiaotong University, Chengdu, China; (b) School of Mechanical Engineering, Southwest Jiaotong University, Chengdu, China; (c) School of Mechanical Engineering, Xi’an Jiaotong University, Xi’an, China; (d) School of Mechanical and Mechatronic Engineering, University of Technology Sydney, Sydney, NSW, Australia摘要无监督域自适应方法(Unsupervised Domain Adaptation, UDA)旨在最小化域间分布差异(Distribution Discrepancy of Interdomain, DDID),因此对于解决目标域标签稀缺的问题具有巨大的潜力。目前,大多数UDA方法通常使用伪标签来衡量目标域特征的分布。然而,在现有的研究中,伪标签的标注水平有限,从而限制了UDA的性能。本文提出了一种集成域自适应网络(Ensemble Domain Adaptation Network, EDAN),该算法利用集成学习(Ensemble Learning, EL)生成高精度伪标签,并结合领域自适应(Domain Adaptation, DA)和EL来保证伪标签的鲁棒性。具体地说,基于多个多尺度卷积神经网络(Convolutional Neural Networks, CNNs)和自增强软投票机制,构造了一个对目标域具有高度泛化能力的EL网络(EL network, ELN)。此外,将ELN与加权平衡分布自适应(Weighted Balance Distribution Adaptation, WBDA)动态耦合,提高了EDAN的分类稳定性,以及每个CNN对目标域的适用性。为了验证所提方法的有效性,基于4个滚动轴承公开数据集,设计了12个跨工况故障诊断任务和7个跨设备故障诊断任务。实验结果表明,EDAN的性能优于5种相关方法。以下内容为编辑的个人理解,但小编水平有限,如有不对之处,请后台联系,并欢迎多多指正~问题来源无监督域自适应方法(Unsupervised Domain Adaptation, UDA)作为迁移学习(Transfer Learning, TL)的一个分支,具有解决目标域标签缺失问题的能力。UDA的本质是通过减小域间分布差异来减少域间分布差异(Distribution Discrepancy of Interdomain, DDID)。最简单的UDA技术需要边缘分布来量化DDID。然而,以这种方式量化的DDID是不精确的,并且难以在具有复杂域间分布的场景中减少域偏移。解决途径研究现状:为了准确地衡量DDID,引入伪标签来估计目标域特征的条件分布。代表性的技术是子域域自适应(Subdomain Domain Adaptation, SDA),联合分布自适应(Joint Distribution Adaptation, JDA)和平衡分布自适应(Balanced Distribution Adaptation, BDA)。当前研究局限性:当前的研究方法总是只采用一个单一的分类器,从而将分类边界(Classification Boundary, CB)的不稳定预测扩展到位于分类边界带(Classification Boundary Band, CBB)中的目标域混淆特征(Confusing Features, CF)。不稳定的伪标签导致DDID振荡,阻碍了模型对全局最优解的搜索。图1 基于集成学习的无监督域自适应方法当前关于集成学习(Ensemble Learning, EL)的研究,主要利用多分类器集成方案来提高伪标签的精度,如图1所示。在第一步中,多个分类器被集成以形成集成CB,从而输出部分准确的伪标签。随后,采用与传统UDA中使用的相同的策略。然而,这些方法在识别精度上的改进仍然有限,这可以归因于以下局限性:在相同的域不变特征集(Domain-Invariant Feature Set,DIFS)上训练的分类器之间的相关性很强;所采用的硬投票方案只考虑投票频率可能会输出错误的预测。软投票方案由于域间软标签的差异,对CF的分类能力不足;由于EL和域自适应(Domain Adaptation, DA)之间的差异,对目标域的分类能力不稳定。创新点图2 所提出方法示意图为了提高基于伪标签的UDA方法的性能,作者提出了集成DA网络(Ensemble DA Network, EDAN),如图2所示。首先,作者建立了一个对目标领域具有高度泛化能力的EL网络(EL network, ELN)。为保证ELN的泛化能力,构造了由3种不同尺度卷积神经网络(Convolutional Neural Networks, CNNs)组成的基本结构,并提出了一种具有自增强能力的软投票机制。最后,作者将ELN与加权平衡分布自适应(Weighted Balance Distribution Adaptation, WBDA)动态耦合,提高了EDAN的预测稳定性和每个CNN对目标域的分类能力。创新点1:自增强软投票机制图3 所提出投票机制示意图集成策略利用了具有自增强属性的基于软标签的投票机制如图3所示,投票机制包括软标签生成、投票和权重自更新三部分。首先,利用Softmax函数对目标域样本 进行模糊分类, 其中, 代表最大类别数, 代表类别索引, 代表 的类别是 的概率, 代表对应 的特征。通过该公式,每个CNN生成软标签 。随后,利用加权张量加法来整合三个CNN的软标签: 其中, 表示 的总体软标签。 中的累积类别概率反映了 的真实类趋势。最终标签 的投票结果如下: 最后,上式中的权重根据以下等式中所示的方法自更新: 其中, 表示每个批次中 的预测结果与投票结果一致的样本数量。由于上式,所提出的软投票机制可以评估每个CNN对每个批次的预测质量。通过这种方式,投票机制可以自适应地从三个CNN中提取信息,从而增强其决策能力。创新点2:集成学习和域自适应之间的实时反馈由于加权平衡分布自适应(Weighted Balance Distribution Adaptation, WBDA)的优越性,我们选择WBDA算法作为DA的工具。WBDA可以表示为: 其中, 和 分别表示基于 和 的先验分布计算的系数矩阵。矩阵中的每个元素表示每个类别的样本占总样本数的比例。由于使用系数矩阵量化每个域内的类别不平衡,应用上式可以获得更精确的DDID测量。作者利用源域特征集 和预测标签集 以及目标域特征集 和伪标签集 来分别替换上式中的 、 、 和 。从而实现了EL和DA之间的实时反馈。在EL和DA的动态耦合过程中,ELN产生更准确和稳定的伪标签,使每个CNN能够更准确地测量DDID。同时,在DA阶段,每个CNN利用更准确的DDID测量结果来获得有效的参数更新,这将增强域间特征相似性并减少域偏移。这两个迭代过程是EL和DA之间实时反馈的本质。编辑:曹希铭校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、海洋、冯珽婷、陈宇航该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈