首页/文章/ 详情

SCI一区域泛化综述,附开源代码和数据集!|跨域故障诊断的域泛化:面向应用的视角与基准研究

7月前浏览12611

域泛化是当前故障诊断领域的研究热点,然而针对其开源代码较少,小编整理搜集了一些开源代码与大家进行分享。本期分享的是,2024年发表于Reliability Engineering & System Safety期刊的综述,并提供有该作者的开源代码,因此这篇开源代码适合参考借鉴并在上面进行改进学习,适合具备一定的深度学习基础知识的学习者,非常值得阅读学习

1 论文基本信息

论文题目Domain generalization for cross-domain fault diagnosis: An application-oriented perspective and a benchmark study

论文期刊Reliability Engineering & System Safety

论文时间2024年

作者Chao Zhao a,c, Enrico Zio b,c, Weiming Shen a,* 

机构

a State Key Laboratory of Digital Manufacturing Equipment and Technology, Huazhong University of Science & Technology, Wuhan 430074, China 

b MINES Paris PSL University, CRC, Sophia Antipolis, France 

c Energy Department, Politecnico di Milano, Milan, Italy

2 摘要

大多数数据驱动的故障诊断方法依赖于训练和测试数据独立且相同分布的假设。然而,训练阶段和测试阶段之间的域偏移在实践中很常见。近年来,基于域泛化的故障诊断技术(domain generalization based fault diagnosis, DGFD)以学习多源域的故障诊断知识并将其应用到未知的目标域而受到广泛关注。本文从应用的角度综述了DGFD的研究进展。首先,阐述了DGFD的基本定义及其各种应用。然后,讨论了不同应用的动机、目标、挑战和最新的解决方案。强调了现有技术的局限性。对8个开源数据集和2个自采集数据集进行了全面的基准研究,为研究人员提供了对现有方法的理解和统一的框架。最后,提出了今后的发展方向。

关键字:故障诊断,域偏移,域泛化,深度学习

3 目录

1 论文基本信息
2 摘要
3 目录
4 引言
5 背景
5.1 基本定义
5.2 域泛化在跨域故障诊断中的应用定义
5.3 相关研究领域
6 域泛化在CDFD中的应用

6.1 一般流程

6.2 基于同构域泛化的故障诊断(HDGFD)

6.3 基于联邦域泛化的故障诊断(FedDGFD)

6.4 基于半监督域泛化的故障诊断(SemiDGFD)

6.5 基于开集域泛化的故障诊断(OSDGFD)

6.6 基于不平衡域泛化的故障诊断(IDGFD)

6.7 基于单域泛化的故障诊断(SDGFD)

7 基准研究
7.1 可用数据集
7.2 基准研究
8 未来发展方向
9 结论
注:本文只选中原论文部分进行分享,若想拜读,请下载原论文进行细读。
小编能力有限,如有翻译不恰之处,请多多指正~

4 引言

注:引言前面只翻译了部分,图1和图2展示了传统深度学习、域适应、域泛化之间的区别,如果能够看图来理解三者之间的区别,说明对域适应和域泛化概念理解已经入门了,那样后续论文阅读也会更容易理解的。

图1 (a)传统的数据驱动故障诊断和 (b)跨域智能故障诊断示意图。符号内的值表示每个样本的类标签

图2 跨域故障诊断中的两种学习范式。(a)DAFD。(b)DGFD。符号内的值表示每个样本的类标签,没有数字的符号表示未标记的样本。

图3 近年有关DGFD的刊物数目(截至2023年11月)

图4 两个级别的DGFD(跨工况和跨设备)
自2019年以来,已经发表了几篇关于跨域故障诊断(cross-domain fault diagnosis, CDFD)的综述论文。Zheng等[13]主要从学习策略的角度对CDFD的研究进行了概述。同时,Yan等[37]发表了一篇综述,讨论了四个具体应用的知识转移。Li等[38]专门对机械故障诊断中的深度迁移学习进行了系统综述。Zhao等人[39]进行了一项基准研究,评估了典型的无监督深度迁移学习方法的性能。Li等人最近的一篇综述[40]详细介绍了深度迁移学习在CDFD中的主要应用。然而,值得注意的是,上述调查论文主要关注域适应故障诊断 (Domain adaptation-based fault diagnosis, DAFD)方法,而不是DGFD方法。需要一个对DGFD进行全面的综述,为未来的研究和应用提供有价值的研究见解。
为了弥补这一研究空白,本文概述了智能故障诊断的域泛化,特别关注了公式、算法和应用。在8个开源数据集和2个自采集数据集上进行基准研究,评估现有DGFD方法在跨工况和跨设备诊断任务下的性能。本工作的目的是为研究人员和从业人员提供一个全面和深入的综述,并促进这一领域和相关领域的进一步研究和进步。
本文的主要贡献主要体现在以下三个方面:
  • 提出了面向应用的DGFD分类方法,总结了前沿进展;
  • 提供了一个可复 制的基于DGFD代码框架。此外,为了验证和应用DGFD方法进行智能故障诊断,选择了8个开源数据集,并发布了2个自采集数据集
  • 讨论并提出了DGFD的挑战和未来方向。
本文的后续章节结构如下:
  • 第2部分定义了术语,提出了面向应用的故障智能诊断领域泛化分类方法,并介绍了相关研究领域;
  • 第3节解释了不同应用的动机,并介绍了相应的解决方案;
  • 第4节提供了一个可用的开源数据集列表,并提出了一个基准研究;
  • 第5节讨论了未来的发展方向;
  • 第6节给出了一些结论。

5 背景

首先介绍了一些基本的符号和定义,然后介绍了DGFD中不同模式的公式。并对相关研究领域进行了讨论。

5.1 基本定义

本小节概述了论文中使用的必要定义和注释。表1列出了最常用的符号。
表1 常用的符号和定义

定义1:()设    表示输入空间,    表示标签空间。域被定义为从概率分布中采样的一组数据点。    ,其中    ,     ,     表示输入空间和标签空间的联合概率分布。
定义2:(域偏移)。给定源域    ,目标域    ,     ,    ,机器学习模型在来自的数据集上训练,并部署在来自的数据集上。源域和目标域之间的输入空间和标签空间是相同的    ,    ,但联合分布是不同的,    。
定义3:(域泛化)。给定个源域    ,     表示第    个源域    表示域标签。多个域间的联合分布不同    。域泛化的目标是从个源域学习一个广义函数    ,以使未知目标域    上的预测误差最小化。
      (1)
定义4:(跨域故障诊断)。训练数据集    和测试数据集    来自不同的域。跨域故障诊断旨在构建一个预测函数    ,以确定故障的根本原因。

5.2 域泛化在跨域故障诊断中的应用定义

许多具体问题在工业场境中引起了极大的兴趣,并为解决这些问题作出了重大努力。对于研究人员和工程师来说,理解与CDFD相关的问题并设计出可行的解决方案是至关重要的。从实际工业应用的角度出发,我们在图5中对该话题进行了总结,并识别了DGFD的不同模式。基于同构域泛化的故障诊断是故障诊断的基础问题,其他问题则是基于特定问题的故障诊断的变体。

图5 面向应用的基于域泛化的故障诊断分类方法

定义5。(基于同构域泛化的故障诊断Homogeneous domain generalization-based fault  diagnosis, HDGFD):令    ,表示未知目标域中的样本集,其中    表示目标样本的个数。HDGFD的目的是构建一个特征提取器和一个分类模块,可以使用多个源数据集最小化目标风险。为了清晰地理解HDGFD,将主要假设归纳如下:
1)  由于工况和设备的变化,源域数量并且不同域的数据分布是不同的    。
2)  考虑同构诊断任务,即不同域的故障模式是相同的    。
定义6。(基于联邦域泛化的故障诊断Federated domain generalization-based fault diagnosis,  FedDGFD):FedDGFDHDGFD的区别总结如下:
1)  多个行业参与者(称为客户)共同构建故障诊断模型。
2)  每个客户端作为一个域,持有机器状态监测数据。
3)  多个具有相似机器的客户端合作训练深度模型,用于未知目标故障诊断任务。源客户存储有用的标记数据。在训练阶段,不可见的目标客户的数据是不可访问的。
4)  数据隐私应该受到保护。禁止其他用户访问不同客户端的本地数据。
定义7。(半监督域泛化故障诊断Semisupervised domain generalization-based fault  diagnosis, SemiDGFD):与HDGFD的不同之处在于,只有一个源域包含标签信息其他源域未标记。设    表示    包含的标记源域样本    。此外,还提供了一组未标记的源域    。    表示未标记的源域的数量。第    个未标记源域    包含    未标记源样本    。
定义8。(基于开集域泛化的故障诊断,  Open set domain generalization-based fault diagnosis, OSDGFD): OSDGFDHDGFD的区别在于:
1)  多个源域和目标域之间的标签空间不相同,即    。
2)  OSDGFD的目标是建立一个能够精确分类已知机器健康状态和检测未知故障模式的诊断模型。
定义9。(不平衡域泛化故障诊断Imbalance domain generalization-based fault diagnosis, IDGFD): IDGFDHDGFD的区别如下:假定不同域的故障模式相同,即    ,其中    为正常类,    是故障类。然而,健康状态的样本数远远超过故障模式的样本数,即    。
定义10。(基于单域广义的故障诊断,Single domain generalized-based fault diagnosis, SDGFD): SDGFDHDGFD的区别在于只给出一个源域,即    。

5.3 相关研究领域

为了进一步说明领域泛化的定义,下面简要介绍了与之相关的一些研究领域,包括多任务学习、终身学习、零样本学习、迁移学习和领域适应。表2总结了它们与域泛化的区别。

表2 域泛化与相关学习范式的区别

多任务学习[41]共同优化了多个相关任务的模型。目的是通过同时学习辅助任务来提高主要任务的表现。然而,多任务学习并不关注对未知任务的泛化能力的提高,而域泛化主要关注对泛化能力的提高。多任务学习在智能故障诊断中的典型应用是同时完成故障诊断和定位[42]。

终身学习[43,44]关注的是模型跨多个顺序领域或任务学习的能力。这种学习模式需要模型在保持先前学习经验的同时整合新知识的能力。与域泛化相比,终身学习在每个时间都可以访问目标领域,并且不解决跨领域分布偏移的挑战。一些研究人员将终身学习用于具有增量故障类型的机械诊断[45]。

零样本学习[46,47]与域泛化有关,因为两者的目标都是解决看不见的分布。然而,零样本学习处理的是标签空间的变化,而域泛化处理的是域偏移。零样本学习的一个典型应用是复合故障诊断。零样本学习是一种很有前途的复合故障诊断工具,其中诊断模型是在单个故障样本上训练的,可以识别未知的复合故障[46]。

迁移学习[48]是一种涉及在源任务上训练模型,然后利用从该任务中获得的知识在相关但不同的目标任务上表现良好的技术。一种流行的迁移学习策略是微调,在训练阶段访问目标域样本,以进一步提高模型在目标任务上的性能。迁移学习和域泛化的相似之处在于它们都处理目标分布与源分布不同的情况。即跨域故障诊断。然而,在域泛化中目标领域样本在模型训练过程中是不可用的,这与迁移学习策略不同。

域自适应[27,49]是最接近域泛化的话题。关于域适应的研究文献非常丰富[50]。域自适应通过调整高维子空间中的分布来缓解域间的分布差异。然而,在实际工业中,域自适应缺乏效率,因为每当新域到来时,训练好的模型必须重新训练。因此,将域自适应技术应用于离线故障诊断。相比之下,领域泛化只训练一个模型一次,并将其应用到任何地方。此外,领域自适应依赖于未标记目标数据总是可用的强烈假设,这在智能故障诊断中可能不现实。

6 域泛化在CDFD中的应用

本节回顾了针对CDFD开发和使用的域泛化方法的文献。说明了DGFD方法的一般流程,包括动机、目标、挑战和先进的解决方案。图6直观地展示了不同DGFD相关应用的设置。

图6 不同应用设置的说明。(a)齐次域泛化。(b)联邦域泛化。(c)半监督域泛化。(d)开集域泛化。(e)不平衡域泛化。(f)单域泛化。

6.1 一般流程

图7 基于域泛化的智能故障诊断一般流程

图7给出了基于域泛化的智能故障诊断的一般流程。要在行业应用中实施一个实际的诊断项目,通常需要遵循数据准备数据处理模型构建行业应用四个关键步骤[3,51,52]。
步骤1:数据准备。在最初的步骤中,目标是准备可用的数据,以提供系统的域泛化模型,该模型可以有效地解决特定任务中的诊断问题。在对特定任务实施DGFD算法之前,有必要对相关设备进行全面的了解,包括其服务能力和基本物理属性。充分和高质量的数据是利用适当算法设计有效解决方案的后续步骤的基础。振动、声发射、电信号等各类数据蕴含着丰富的综合监测信息。通常有三种可行的方法来获取DGFD的多源域数据。
  • 第一种是利用在不同工况下从同类型机器收集的数据。

  • 第二种是从公开的数据集中选择相似的数据。

  • 第三种选择是在实验室进行故障模拟实验。

步骤2:数据处理。与实验室实验数据相比,工业数据具有数量庞大、低价值密度、多源异构数据结构和监测数据连续流四个关键特征。在数据驱动的故障诊断范式中,训练数据的数量主要影响最终诊断模型的性能。大量的干净数据对于提高诊断模型的性能至关重要。因此,数据预处理是至关重要的一步。数据清洗、数据分割和先进时频变换等技术被广泛应用。它们在处理原始工业数据方面已被证明是有效的,因为它们可以消除不一致并提高数据质量。
步骤3:模型构建。随着人工智能在制造业的不断发展,现在可以使用先进的算法来执行诊断任务。这些算法对特定问题的适应性各不相同。因此,根据可用数据和目标任务选择和利用最合适的算法对于开发有效的解决方案至关重要。除了算法的选择外,体系结构和超参数的选择对诊断性能也起着至关重要的作用。然后,根据可用的训练数据,利用基于梯度的优化器对选择的模型进行优化。
步骤4:行业应用。诊断模型经过训练后,可用于识别目标设备的健康状态,检测新的故障类型,或依靠物联网对诊断系统中的机组进行监控。

6.2 基于同构域泛化的故障诊断(HDGFD)

6.2.1 动机、目标和主要挑战

深度模型能够从数量有限的源数据中获取常见的诊断知识。如果这一点成立,这些深度模型在面对新环境时可能表现出良好的泛化,如图6(a)所示。主要目标是开发一个既健壮又泛化的诊断模型,使其能够在广泛的环境条件下熟练地执行任务。在此过程中遇到的挑战是获取不变性诊断知识,从而有效地识别系统状态,同时在不同的环境中保持稳定。表3概述了当前通过两级机制增强模型泛化性能的HDGFD解决方案。

6.2.2 1级解决方案:变工况

变工况,如速度、负荷或操作的频繁变化,导致在训练和测试数据集之间观察到分布差异。因此,人们一直在努力提高深度诊断模型的泛化能力。这些方法可以大致分为三组:
(1)  数据增强;
(2)  域不变表征学习;
(3)  学习策略。

重要的是要注意模型所使用的数据训练和测试是在相同的机器上收集的,但在不同的工况下。训练数据的丰富性和多样性有助于减少过拟合问题,提高数据驱动模型的泛化能力。给定一个数据变换函数,对输入进行变换将数据转化为增广数据,目标域泛化随着数据的增加,编写如下:

      (2)

如图8(a)所示,Li等[55]通过水平缩放时间振动数据,人为地制造了额外的假域。通过这种方式,训练数据集得到了显式扩展。不同的拉伸系数可以产生不同的区域。在原始数据中引入细微的变化是处理信号的另一种方法。Han等[56]通过加入高斯噪声和移幅来增强多源数据,如图8(b)所示。研究者还引入了Mixup技术[57]来生成假样本。Fan等[58]在类空间和域空间混合时频图像。Shi等[59]采用Mixup生成新的域间样本,如图8 (c)所示。此外,He等[60]设计了一种基于dropout的输入特征随机扰动的训练策略。

图8 三种域增强方法的实例。(a)时域扩展。(b)信号变化的域增强。(c)混合增强

可以发现,数据扩充是提高数据多样性和增强模型通用性的一种简单、低成本的方法。然而,这些方法有一些局限性。首先,这些方法的有效性在很大程度上依赖于增强数据的质量。更重要的是,没有评估过程来评估生成的数据的有用性。生成样本的语义信息难以保证。其次,过程信号需要专业知识和一定的试验来选择最优参数,如比例因子和噪声程度。
学习对可变域不敏感的域不变表征是一种改进模型泛化的流行框架。研究[61]从理论上证明了跨不同域的不变表征具有泛化能力和可迁移性。目前学习域不变表征的方法主要涉及减少多个源域之间的分布差异。领域对抗学习通常用于HDGFD。图9(a)给出了标准架构,其中包括特征生成器    、状态分类器    和域鉴别器    。生成器和鉴别器之间的极大极小博弈有助于捕获域不变表示。对抗性学习的一般优化目标为:

      (3)

例如,Chen等人[62]提出了一种新域回归框架,通过学习领域不变表征来诊断旋转机器故障。Zhang等[63]提出了一种新的基于单鉴别器的条件对抗策略用于轴承故障诊断。除了对抗学习,显式特征对齐也是学习域不变表示的一种方式,其通用结构如图9(b)所示。

      (4)

图9 不变表示学习的两种典型方法的体系结构。(一)基于对抗。(2)基于指标。    、    和    分别表示特征生成器、分类器和域鉴别器。    、    和    分别表示监督损失、混淆损失和差异损失

图10 (a) RGMP体系结构[53]。(b) DGNIS体系结构[54]。    和    是两个特征发生器。    和    表示多个类分类器。    是域分类器。相应的,    和    分别表示故障类型的监督损失和域源的监督损失
其中是    特征对齐的正则化函数。    是一个平衡超参数。Yang等[64]提出了一种通过center losssoftmax loss联合优化的未知工况故障诊断方案。Ragab等人[65]采用互信息作为提取公共类信息和获得独立于环境的类表示的手段。与上述工作不同,Zheng等人[35]描述了格拉斯曼流形上每个源域的鉴别结构。
对齐分布是学习不变表征的一个关键挑战。它需要使用有效的距离度量来评估分布差异。此外,重要的是要确定对源域的位移不变的表示是否可以推广到不可见的目标域的位移。解决这一问题涉及到新理论的发展,这些理论阐明了源域的对齐如何增强未见域的泛化。
除了数据处理和表征学习外,研究者还精心设计了不同的学习策略来提高模型的泛化能力。在训练过程中调节单个源域的优化方向可以避免诊断模型学习特定于域的特征[66]。Tang等人[53]引入了稳健诊断的表示梯度沉默范式,如图10(a)所示。同样,Wang等人[67]通过最大化梯度的点积来研究不变表示源域之间。Ren等人[66]使用元学习框架来对齐梯度以构建鲁棒模型。HDGFD还有其他的学习策略。图10(b)展示了ZhaoShen[53]提出的领域泛化网络,该网络同时利用了领域不变性和专用性。
虽然这些直观的方法有助于从各个角度改进模型的泛化,但仍然缺乏基本的理论基础。这种理论基础的不足降低了这些方法在广泛的实际环境中的可靠性。展望未来,必须深入研究强大的理论框架,并随后在这些基础上设计可靠的方法。

6.2.3 2级解决方案:跨设备

在跨机器应用场景中,数据是从相关但不同的机器上获得的。这种场景的复杂性质,包括各种机械结构材料和尺寸,导致训练和测试数据之间的显著分布变化。这种变化比在涉及不同工作条件的情况下观察到的变化更为显著。
HDGFD跨机器的某些初步进展已经成功实现。Shi等[68]设计了一种基于域可迁移性的动态加权策略,以学习普遍有效的诊断知识。Shi等人[69]构建了一个泛化网络,其中对比损失除掉了特定领域的信息,多分支模块学习了故障相关的特征。Zheng等[70]利用先验诊断知识对振动信号进行预处理,并引入正则化项提高泛化性能。因果学习是一种很有前途的挖掘不变量相关性的工具。Li等[71]提出了一种基于分析的振动数据生成过程的因果一致性网络。从相关轴承机械中学习故障因果表示,并将其应用于目标轴承故障诊断任务。Jia等[72]提出了一种深度因果分解网络来探索不同域之间稳定不变的因果关系。一般来说,有效的因果学习依赖于正确的结构因果模型,该模型描述了数据生成机制。图11(a)表明,给定两个统计上相关的观测值    和    ,存在一个变量    ,它对它们的所有依赖性产生因果影响,并澄清了它们的依赖性,从而导致它们在以    为条件时处于依赖状态。未观察变量    是影响可观察变量    但与    无关的混杂因素。具体到智能故障诊断,信号是故障    和域    的耦合项,如图11(b)所示。领域    是一个不可观察的混杂因素(速度、负载、系统结构等)。因此,因果学习的目标是捕获消除域    影响的因果表示。

图11 (a)数据产生的一般结构因果模型。(b)信号产生的结构因果模型
通过减少联合分布差异学习到的不变表征在看不见的域任务中被证明是效果微弱的。因果学习探索的是无法直接观察到的潜在因果变量,这些变量在分布变化下更加稳定和稳健。因果学习是一种将故障机制知识集成到数据驱动模型中的潜在解决方案,它使模型更具鲁棒性和可解释性。

6.3 基于联邦域泛化的故障诊断(FedDGFD)

6.3.1.  动机、目标和主要挑战

在实际工程场景中,为单个用户获取足够的监测数据可能具有挑战性且成本高昂,这对开发智能诊断方法构成了重大障碍。这个问题的一个解决方案是从几个具有类似机械设备的用户那里收集带注释的监测数据。通过汇集来自不同用户的数据,可以生成一个全面的训练数据集用于模型训练,从而提高诊断模型的有效性[78]。然而,由于潜在的利益冲突或数据隐私法规,在用户之间直接共享数据往往是不可行的。图6(b)将展示FedDGFD设置,其中联邦学习使多个用户能够在保护数据隐私的同时在分布式数据集上协作训练机器学习模型。因此,如何在保证数据隐私的前提下对多个用户的数据进行联合建模已成为一个有趣的研究问题。FedDGFD的目标是构建一个健壮的模型,其中单个源客户端的数据不能与其他客户端共享,并且在模型训练过程中目标客户端的数据无法访问,如图12所示。其中一个关键挑战是在保护隐私的同时在不同客户之间传递知识。期望每个客户机借助来自其他客户机器的信息学习域不变性,从而使中央服务器中的聚合全局模型对各种环境更加健壮。

图12 基于联邦域泛化的故障诊断实例

6.3.2 解决方案

现有的集中式域泛化技术不能直接应用于解决FedDGFD问题,因为通过云服务器访问存储在多个客户机上的数据是禁止的。关于这个问题的研究还处于初级阶段Wang等人[79]报道了一项研究。在他们的解决方案中,人为地创建了一个参考分布。然后,采用对抗训练方法来减小参考分布与实际分布之间的差异。这样,局部模型可以在不需要其他客户端数据的情况下学习广义特征。ZhaoShen[80]利用多任务分类器作为领域信息载体,在客户端之间共享领域信息,学习不变特征,不泄露数据隐私。Cong等人[81]开发了一种基于分类损失的加权局部模型聚合策略。然而,上述研究只是调查模型在不同工况下的泛化,使其应用受到很大限制。在不同位置的多台同类型机器之间构建联邦域泛化框架更有意义和价值。Song等[82]提出了跨机设置下FedDGFD的伪Siamese网络。
虽然研究人员在解决FedDGFD的域偏移问题上迈出了第一步,但未来还有一些问题需要解决。首先,由于操作环境、操作流程、信号采集设备等的不同,不同工厂的数据普遍表现出较高的异质性。发展一种新的理论来挖掘异质性数据中的诊断信息是很重要的。其次,具有大量参数的深度模型会导致较高的通信开销。对具有较强知识学习能力的轻量级模型有很高的要求。

6.4 基于半监督域泛化的故障诊断(SemiDGFD)

6.4.1 动机、目标和主要挑战

初代HDGFD方法需要从观察到的源域中标记样本进行训练,由于获得高质量标签的高成本和劳动密集型性质,这在现实世界的工业试验过程中是具有挑战性的。经常停止操作以检查机器健康状况是不切实际的,这会导致标记数据的短缺,而未标记数据则大量存在。SemiDGFD的目标是使用包括标记源域和多个未标记源域的训练数据集开发一个通用模型,如图6(c)所示。主要的挑战是在标记数据稀缺性的背景下探索领域不变性知识。

6.4.2 解决方案

为了解决半监督学习问题,一种常见且直观的策略是用可靠的伪标签标记未标记的数据Liao等人[83]将传统的基于伪标签的半监督学习整合到Wasserstein生成对抗网络中。为了保证伪标签的质量,ZhaoShen[84]构建了一个多分支网络,利用标注数据对未标注数据进行标注。此外,采用熵驱动机制来提高伪标记样本的质量。Ren等人[85]设计了领域模糊策略和度量学习策略来提高伪标签的可信度。与上述三种方法为未标记的源数据分配伪标签不同,Li等人[86]提出了一种通过最大化分类器差异来生成判别表示的网络,用于轴承故障诊断。
利用标记的源数据为未标记的源数据生成伪标签,从而增加标记的样本量,已经证明了它在解决SemiDGFD问题方面的有效性。问题的关键在于提高伪标签的质量,因为噪声标签会对诊断模型的性能产生不利影响。当源领域数据来自不同的机器时,在挖掘伪标签精度的情况下,会产生数据特征和分布的巨大差异。因此,设计一种有效的方法来选择具有高置信度的伪标记样本具有重要意义。此外,一个有趣的方向涉及探索利用未标记源数据而不需要创建伪标签的技术。例如,先进的无监督方法有可能为模型提供全面的诊断知识,并增强其对领域迁移的抵抗力。

6.5 基于开集域泛化的故障诊断(OSDGFD)

6.5.1 动机、目标和主要挑战

准备包含所有潜在故障模式的全包数据集的过程是一项耗时的任务。测试阶段可能产生新的故障模式,导致训练数据和测试数据之间的标签偏移。在OSDGFD场景中,诊断模型需要准确地源标签空间中共享的目标样本进行分类同时还要精确地将目标异常点识别为未知故障模式,特别是当源域中未观察到此类故障模式时,如图6(d)所示。诊断模型必须探索域不变性,同时设置异常阈值。通常,在特征空间中,目标已知类样本比目标未知类样本更接近其对应的源簇。然而,由于目标已知类样品在源样品周围的解离,可能产生不确定性。

6.5.2 解决方案

基于现有的文献,似乎缺乏专门针对开集域泛化的研究与机械故障诊断相关的挑战。ZhaoShen[87]探索了迁移表示空间,通过最小化三重损失实现了判别表示结构。在此基础上,构造了各个类表示空间的最优决策边界,对已知和未知故障模式进行有效分类。巨大的潜力在于探索同时解决领域偏移和类别偏移的解决方案。一个有前途的方向是获得在未知目标域的已知和未知样本之间建立识别决策边界的能力。

6.6 基于不平衡域泛化的故障诊断(IDGFD)

6.6.1 动机、目标和主要挑战

目前许多故障诊断方法都是在训练数据均匀分布的假设下设计的。然而,在机械系统的健康状态下,振动信号等数据很容易采集。如图6(e)所示,在训练集中,健康状态的样本远远超过故障状态的样本期望建立一个广义的、无偏的诊断模型,以处理类不平衡中的分布偏移。
6.6.2 解决方案
到目前为止,只有一种针对IDGFD问题的解决方案ZhanShen[88]对Mixup方法进行了扩展,以适应多域类不平衡问题。主要思想是使用多个源样本合成可靠的少数类样本。在输入空间和潜在空间都实现了语义正则化,以保持语义一致性。类似的问题也在计算机视觉领域得到了研究。Yao等人[89]设计了一种选择性平衡采样策略来增强域和类上的隐藏表示。Yang等人[90]开发了一种新的基于域类可迁移性图的损失函数。
数据增强技术是单域类不平衡故障诊断问题中生成少数类样本的有效方法。考虑到IDGFD的独特特征,研究跨多个领域使用数据增强技术的潜力具有很大的前景。

6.7 基于单域泛化的故障诊断(SDGFD)

6.7.1 动机、目标和主要挑战

来自不同领域的不同样本构成了HDGFD的基础。然而,在实际工业场景中,故障样本是罕见且有价值的。从单个域中收集可用数据的可能性很大。单域泛化的目标是开发一个鲁棒模型,当可用的训练数据仅来自一个源域时,该模型能够泛化到未知目标域,如图6(f)所示。在这种情况下,由于有限的多样性,深度模型在训练阶段可能不会遇到足够的变化,因此模型在未知目标域上的泛化能力可能会受到损害。
6.7.2 解决方案
为了应对训练数据多样性有限所带来的挑战,已经提出了几种方法来解决计算机视觉领域内的单源域泛化问题[91-93]。这些方法在训练阶段采用先进的数据增强技术,主要目的是模拟不同的域设置。首要目标是将模型暴露于广泛的潜在训练域,从而增强模型对分布变化的弹性。Wang等人[93]在这方面做出了显著贡献,他们提出了一种以风格互补模块设计为中心的创新方法。该模块用于生成与源域具有显著分布差异的合成样品。随后,在风格互补模块和任务模型之间采用互信息迭代最小-最大博弈,最终增强任务模型的泛化能力。
在智能故障诊断的背景下,仅仅依靠统计信息来生成合成样本,如上述方法[94]所采用的,可能是不够的。下一步,更可取的做法是将领域专业知识整合到数据增强过程中,从而增强生成样本的真实性和可靠性。

7 基准研究

7.1 可用数据集

表4 可用数据集

本综述共纳入了10个能够支持DGFD研究的数据集(8个开源数据集和2个自收集数据集),如表4所示。

7.2 基准研究

虽然存在许多域泛化算法,但在实验条件下的一致性,包括数据集、网络架构和任务设置,使得公平比较变得困难。本小节旨在对现有领域泛化方法在不同数据集上的有效性进行调查。以往关于跨域故障诊断的基准研究[39]主要关注域自适应方法,利用未标记的目标域数据进行模型训练。然而,本文提出的基准研究侧重于评估各种方法在不可预见的域偏移中的性能,在不可预见的域偏移中,目标域的先验知识在训练阶段不可用。HDGFD是跨域故障诊断中最受研究者关注的基本问题,在其他情况下的应用研究相对较少。因此,本节对HDGFD进行基准研究。

7.2.1 对比方法和实现细节

(1)  方法的比较

因为很少有研究者公开他们的代码,其中一些是在基本迁移学习方法的基础上扩展而来的。因此,我们总共选择了8种经典方法作为基准。它们是
  • 经验风险最小化(ERM)[103];
  • 领域对抗神经网络(DANN)[104];
  • 深度相关对齐(DCORAL)[105]、最大平均差异(MMD)[24];
  • 具有中心损失的卷积神经网络(CNN-C)[64]、内在和外在域泛化网络(IEDGNet)[56];
  • 条件对比域泛化网络(CCDG)[65];
  • 结合不变性和特异性的域泛化网络(DGNIS)[54]。

(2)  实现细节

除平均准确率外,还计算了各算法相对于ERM的排名分数。排名分数是根据算法相对于同一数据集的ERM精度所达到的精度来确定的。对于每个数据集-算法对,根据所达到的精度是否低于、等于或高于ERM精度,分配-1、0或+1的分数。附录E给出了具体的实现细节。

7.2.2 跨工况下的域泛化

(1)  任务描述

在本小节中,首先对不同的算法在交叉工况诊断任务上进行评估。基于6个数据集共设计了24个诊断任务

(2)  性能分析

图13 不同方法在交叉工况设置下的诊断准确性。(一)CWRU。(b)PU。 (c)PHM09。(d)LW。(e)HUSTbearing 。(f)HUSTgearbox。

图13给出了不同方法在不同数据集上的诊断准确率。从图13中,可以看到以下观察结果。
  • 1)  从图13(a)可以看出,包括最简单的ERM方法在内,8种方法的准确率都接近100%。原因是CWRU数据集中的信号被预先去噪。此外,在不同工作条件下采样的数据分布差异最小。这些结果表明,在不同的工作条件下,常用的CWRU数据集不适合HDGFD实验

  • 2)  从图13(b)中不难发现,不同的方法在任务5C和7C上的准确率普遍不理想,而在任务6C和8C上准确率较高。原因可能是任务5C中目标域的机器转速(900转/分)与源域的机器转速(1500转/分)不同,如附录B.2所示。类似地,任务7C中目标域中的机器负载(400N)不同于源域的负载(1000N)。这些结果表明,目标域的工作条件在源域的工作条件中没有属性,这对诊断模型的泛化性能提出了很大的挑战。相反,当一个单一的工况属性与源域共享时,即使目标域中的属性组合与源域中的属性组合不同,任务也变得相对容易。因此,在广泛的条件下获取数据证明对训练是有利的。这些数据集将包含与特定条件相关的独特操作特征。

  • 3)  在PHM09数据集的4个相关任务(Task 9C-12C)中,所有方法的准确率普遍接近50%,如图13(c)所示。先前的研究[39]表明,即使在训练过程中使用未标记目标数据的先进DAFD方法,所获得的准确率仍然在50% ~ 60%的范围内。在PHM09数据集中识别故障模式的挑战性是显而易见的。复杂的机械传动结构与信号耦合,降低了现有数据驱动诊断模型的有效性。复杂系统在动态工况下的故障诊断仍然是一个重要的研究课题,也是一个重要的难点。探索更复杂的信号处理方法,表示挖掘技术和模型架构代表了获得更深入的见解,从而提高模型的泛化能力的途径。

  • 4)  在LW数据集衍生的4个诊断任务中,任务15C和任务16C比任务13C和14C更具挑战性,如图13(d)所示。Task 15C和Task 16C中目标域的机器负载相对于Task 13C和14C中要轻一些。载荷的大小对机器的振动性能有影响。在复杂的作战环境中,传感器获得的信号往往带有额外的干扰信息。这导致滚动轴承的振动和冲击信号变得微弱,并且很容易被强背景噪声掩盖,特别是在低负荷条件下。因此,与不同健康状态相对应的信号之间的区别减少了。因此,发展信号处理技术以提高故障与噪声之间的信噪比,探索先进的深度模型以减轻干扰和噪声对小故障检测的影响,以及制定有效的学习策略以提取固有特征,对于增强模型的泛化能力至关重要。

  • 5)  可以看出,在任务17C中,不同的方法都不能准确地识别故障模式。此外,在四个任务中,IEDGNetDGNIS方法的性能始终较其他方法差,如图13(e)所示。现有的方法只在某些数据集上表现良好,而在其他数据集上表现不佳。在未来的研究中,建议的方法应该在多个数据集中进行评估。从图13(f)可以看出,Task 21C和22C比Task 23C和24C难度更大。在任务21C中也可以发现,ERM优于其他方法,说明不能严格保证高级领域泛化技术的可靠性。

  • 6)  30个任务的结果表明,没有一种方法始终优于ERM。如附录F.1-F.6所示,有些方法甚至不能在一个数据集的四个任务上一致地获得更好的准确性。例如,IEDGNet方法在HUSTgearbox数据集上表现良好(排名得分为+2),而在PHM09数据集上表现糟糕(排名得分为-4)。因此,ERM应该始终作为所有未来评估的基线。

7.2.3 跨机器下的域泛化

(1)  任务描述

内圈故障和外圈故障是轴承常见的故障模式。因此,在跨机器场景中,除了健康状态外,还考虑了三种轴承健康状态。共设计了16个跨机器场景下的HDGFD任务。

(1)  性能分析

图14 不同方法在跨机器设置下的诊断准确性。(a)第一组。(2)第二组。(3)第三组。(4)第四组。因为这是一个三分类任务,所以黄色虚线表示准确率为33.33%,而粉红色虚线表示准确率为66.67%

基准结果如图14所示。注意到以下观察结果。
  • 1)  尽管只考虑了三种机器健康状态,但不同的方法在所有16个任务上的表现通常都很差。这些结果表明,跨机器场景下的机器健康状态诊断非常困难。这是因为不同的机械结构、不同的采样频率和不同的共振特性导致不同的域之间存在显著的分布差异。然而,实现跨机器故障诊断比跨工况故障诊断更有意义和重要。这是因为在现实世界的工程环境中,由于日常维护,例如航空发动机,直升机和军事设备,特定机器的故障数据不可用。因此,故障诊断模型的开发往往依赖于从实验室实验或模拟中获取数据,而不是从现场运行的现役组件和系统中获取数据。跨机器故障诊断具有普遍的应用需求,是当前研究的热点

  • 2)  比较任务6M和15M的任务设置和诊断结果,其中只有一个源域不同,八种方法的整体性能差异显著。这些结果表明,选择合适的源域是重要的。然而,现有的HDGFD研究普遍忽略了这个必要的问题。关于选择最优源域的有限报道来自Yang的工作[106]。不幸的是,他们的研究重点是在DAFD场景中选择最优源域。在HDGFD问题中,如何选择最优源域是一个比较复杂的问题。这种复杂性的产生是由于在多源领域合作机制中,仅考虑相似性是不够的。特征独特性也强烈影响最终诊断模型的性能。此外,确定合适的源域数量也是一个重要的挑战。如果源域数量过少,则缺乏数据多样性,限制了模型的泛化能力。相反,如果源域的数量太大,则准备数据集的成本很高,并且可能存在源域包含质量差且不相关的数据,从而导致负迁移

  • 3)  与跨工况任务的结果类似,没有一种方法始终优于ERM。在高阶空间中减少多源域间的域偏移可能不是解决故障诊断中域泛化问题的有效方法。失败的主要原因是深度模型倾向于过度拟合数据并学习虚假的相关性。此外,这些方法缺乏理论保证,实证研究表明它们在现实世界中的效用值得怀疑。基准研究表明,单个算法无法在所有机械诊断任务中获得优异的性能。因此,研究人员需要在未来的工作中提供预测的可靠性。还鼓励研究人员澄清其提出的方法的应用限制。

  • 4)  当目标域数据来自CWRU数据集(Task 4M, 8M, 12M, 16M)时,8种方法的准确率普遍较高。这是因为不同机器健康状态的信号在CWRU数据集中具有区别性,便于构建的模型对其进行识别。

8 未来发展方向

8.1 方向1:知识嵌入

尽管使用数据驱动的方法在故障诊断方面取得了重大进展,但它们的黑箱性质往往导致学习到的特征具有不可控和不可解释的属性。这限制了它们在行业中的适用性。此外,第4节的基准研究表明,现有方法在泛化方面存在弱点,特别是在跨机器故障诊断场景中。解决这些问题的一种方法是在解释构建的模型和学习到的可迁移表征时结合领域知识。因果学习[107]提供了一个互补的视角。开发适合智能故障诊断的结构因果模型(SCM)需要领域专家的投入。一旦建立了准确的SCM,它就可以作为深度模型训练的指导框架。这个过程有助于提取广义特征,消除误导性的相关性。领域知识与数据驱动方法的无缝集成提高了数据科学在工程应用中的可解释性和可靠性

8.2 方向2:数据中心建模策略

智能故障诊断领域的许多研究人员主要关注识别更有效的人工智能模型,以提高诊断系统的性能,而通常保持数据基本不变。然而,在DGFD问题的背景下,数据的重要性越来越明显。如第4节所示,多个源域的良好执行组合可以构建强大的诊断模型,甚至不需要使用复杂的方法。因此,如文献[108]所强调的,设计有效的技术来选择和精炼训练数据集变得至关重要。例如,在现实世界的应用程序中,最初和可能最广泛的工作围绕着基于目标机器准备合适的训练数据。

  • a) 当面对包含机器规格、潜在故障、工作环境等的特定诊断场景时,从数据存储库中识别最相关和最有价值的数据集成为一项至关重要的工作。研究人员被鼓励制定数据选择标准,帮助工业现场的技术人员做出明智的数据选择[109]。
  • b) 考虑到所选数据来自各种来源,表现出不同的采样率、不同的环境噪声水平和不同的机器特性,将这些数据集统一成一个连贯的整体的挑战仍然是值得未来研究的主题[70]。
  • c) 敦促研究人员贡献他们的高质量数据集,形成一个全面的数据存储库。这样的资源可以极大地有利于实际应用,并促进算法的发展[50]。
8.3 方向3:模型自我进化

一旦一个诊断模型在不同来源的样本上进行了训练,并被部署到目标机器的在线状态监测中,它就开始接收和处理反映机器状态的稳定数据流。考虑到该数据流的动态特性和不断发展的状态信息,模型有机会获得新的见解。这可能会潜在地提高模型的性能。

然而,当新的样本出现时,现有的训练良好的模型必须连同其先前的学习一起被丢弃并重新训练。这将导致大量的计算需求和时间支出,如果不及时处理,可能会导致数据失去其意义。因此,使诊断模型适应工业大数据环境中的这种流是至关重要的[110,111]。智能系统应该能够从新出现的样本中学习新的模式和故障模式。这可以通过两种关键方式实现:

  • a) 执行连续的域泛化对于有效更新诊断模型至关重要。这有助于克服灾难性遗忘的问题,并允许模型调整以适应从动态环境中收集的新数据。
  • b) 现有的诊断方法通常假设机器的健康状态保持稳定。然而,在实际监控场景中,可能会出现新的故障模式。因此,有必要设计模型,不仅要泛化到新的领域,还要扩展其功能,以包括监视过程中可能出现的新故障类。这种前瞻性的方法将增强模型在未来情景中的适用性。
8.4 方向4:多模态数据

如振动、声学和热图像,可以提供丰富的机械系统操作信息,并提供更清晰的故障指示[112]。新兴的生成式人工智能技术,如GPT-4,利用包括文本、图像和视频在内的多模态数据作为输入。这种方法可以对齐多模态数据并捕获跨模态知识,最终在新的环境和任务中产生高泛化能力。在这个概念的基础上,智能故障诊断的多模态模型的发展具有重要的前景。

  • a) Transformer作为大型基础模型的基本模块,由于其突破性的架构设计,具有出色的特征提取性能。设计适合故障诊断的Transformer变体是至关重要的,特别是在处理时间序列数据时。
  • b) 不同模态数据之间存在差异和冗余。通过多模态共同学习来整合两个或多个模态的信息,以获取不变的跨模态信息来提高模型泛化性能,是一个很有前途的研究方向。

9  结论

领域泛化是一种很有前途的工具,可以加速数据驱动故障诊断方法在工业中的实现。本文从面向应用的角度对现有的DGFD方法进行了分类。然后阐明了智能故障诊断的领域泛化和相关的学习范式。详细介绍了不同应用场景的动机和主要挑战,并概述了相应的解决方案。我们还强调了当前研究的局限性。为了帮助研究人员开发更有效的DGFD模型,我们收集了8个开源数据集,并发布了2个自收集数据集,可用于跨工况和跨机器场景。此外,还进行了基准研究,以提供对现有DGFD模型性能的见解。最后,我们提出了新的思路和展望,为今后的研究工作提供进一步的动力。我们希望本文能够提供DGFD的概述,并鼓励更多的研究。


来源:故障诊断与python学习

ACTSystem振动通用航空通信声学理论电机材料传动创新方法工厂试验人工智能数控
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-04-21
最近编辑:7月前
故障诊断与python学习
硕士 签名征集中
获赞 69粉丝 66文章 141课程 0
点赞
收藏
作者推荐

中科院一区Top开源代码推荐|用于跨机器工况下故障诊断的深度判别迁移学习网络

迁移学习是当前故障诊断领域的研究热点,然而针对其开源代码较少,小编整理搜集了一些开源代码与大家进行分享。本期分享的是用于跨机器工况条件下故障诊断的深度判别迁移学习网络,该论文是重庆大学钱泉博士于2023年发表在中科院一区Top期刊Mechanical Systems and Signal Processing上的,并提供有该作者原创的开源代码和北交何超博士复现的pytorch框架代码,因此这篇开源代码适合参考借鉴并在上面进行改进学习,适合具备一定的深度迁移学习基础知识的学习者。该方法是用多个轴承数据进行跨设备的智能诊断,很贴合实际工程应用场景,非常值得阅读!代码链接:Tensorflow框架: https://qinyi-team.github.io/#blogPytorch框架: https://github.com/liguge/Deep-discriminative-transfer-learning-network-for-cross-machine-fault-diagnosis1 论文基本信息论文题目:Deep discriminative transfer learning network for cross-machine fault diagnosis论文期刊:Mechanical Systems and Signal ProcessingDoi:https://doi.org/10.1016/j.ymssp.2022.109884论文时间:2023年作者:Quan Qian, Yi Qin, Jun Luo, Yi Wang and Fei Wu机构:State Key Laboratory of Mechanical Transmission, Chongqing University, Chongqing 400044, People’s Republic of China; College of Mechanical and Vehicle Engineering, Chongqing University, Chongqing 400044, People’s Republic of China第一作者简介:钱泉,重庆大学机械工程专业博士研究生,中共党员,重庆大学在校生最高荣誉——学生年度人物获得者,长期从事于机械装备故障诊断与预测性维护,共发表国际知名SCI论文15篇,其中以一作发表中科院一区9篇、中科院二区1篇、IF>10高水平论文3篇,谷歌学术累计被引380余次,累计影响因子110+;已经申请发明专利14项,其中以学生一作授权中国专利4项、公开中国专利5项和英国专利1项。2 摘要目前,研究者已经提出了很多用于解决目标域和源域之间的分布对齐和知识迁移问题的领域自适应方法。然而,大多数研究方法只关注到边缘分布对齐,忽略了目标域和源域之间判别性特征的学习。因此,在某些案例中,这些方法仍然不能很好地满足故障诊断要求。为了提高分布一致性,并且对齐两个域的边缘分布和条件分布,我们提出了一种改进联合分布自适应(Improved Joint Distribution Adaptation, IJDA)机制。在该方法中,我们将最大均值差异和相关对齐(Correlation Alignment, CORAL)方法相结合,作为一个新的分布差异度量方法用于提高分布的一致性。在此基础上,提出了一种改进的条件分布对齐机制。另外,我们提出了一种新的I-SoftMax损失,该损失相比原始SoftMax损失具有更强的分类能力,可以帮助网络学习到更多可分离的特征。我们利用IJDA机制和I-SoftMax损失,构建了深度判别迁移学习网络(Deep Discriminative Transfer Learning Network, DDTLN)来实现迁移故障诊断。基于没有标签的目标域样本,我们对六个跨机器诊断任务进行实验,证明该方法与其他典型的域自适应相比,具有更高的迁移故障诊断性能。关键词:判别特征学习,联合域自适应分布对齐,分类损失,故障迁移诊断3 目录1 论文基本信息2 摘要3 目录4 引言5 所提方法5.1 DDTLN框架5.2 改进联合分布自适应5.3 I-SoftMax 损失函数5.4 优化目标6 实验6.1 数据集描述6.2 故障诊断任务和实施细节6.3 I-Softmax损失的有效性分析6.4 实验结果与讨论6.5 进一步实验研究7 总结注:本文只选中原论文部分进行分享,若想拜读,请下载原论文进行细读。小编能力有限,如有翻译不恰之处,请多多指正~4 引言由于工业大数据和测量技术的快速发展,前沿的故障诊断和预测算法引起了许多研究人员的关注。由于深度学习方法不依赖人为经验,因此基于深度学习的故障诊断方法成为近五年来的研究热点。然而,在实际工程领域中,获取足够的标签是极其困难的,这意味着深度学习模型的鲁棒性和泛化能力无法得到有效的保证。另外,深度学习的诊断模型要求训练数据集和测试集满足相同概率分布。然而,旋转机械由于工作载荷、传递路径、噪声干扰、故障程度甚至复杂的机械结构等因素的影响,必然会产生显著的分布差异。为了解决上述问题,迁移学习(Transfer Learning, TL)被提出,首先它减少目标域和源域之间的分布差异,然后将从有标签的源域中学习到的知识共享到有少量标签或没标签的目标域。域自适应(Domain adaptation, DA)减小了目标域和源域分布的差距,并学习域不变特征。主流的深度DA机制可以分为基于对抗的机制和基于统计度量的机制。例如,研究者提出了深度域混淆(Deep Domain Confusion, DDC) [6]和深度自适应网络(Deep Adaptation Network, DAN)[7]来执行具有最大平均差异(Maximum Mean Discrepancy, MMD)距离度量的跨域图像分类任务。深度相关对齐(Deep correlation alignment, DCORAL) [8]也获得了比典型协方差方法更好的结果。受生成对抗网络(Generative Adversarial Network, GAN)的启发,Ganin等人[4]提出了一个域识别器来区分源域和目标域。然后,通过特征提取器和域混淆器之间的对抗学习来实现域混淆。在故障迁移诊断领域,Long等人[9]采用三层稀疏自动编码器网络和MMD度量对西储大学(Case Western Reserve University, CWRU)轴承数据集进行故障诊断。为了进一步增强域混淆能力,作者[11]通过结合对抗机制和距离度量来提高不同负载下的迁移诊断准确率。针对各种类型的迁移任务,基于DA的方法可以分为部分域自适应[12]、闭集域自适应[13]、开集域自适应[14]、通用域自适应[15]、源域和目标域中的多对一域自适应[16]以及源域和目标域中的一对多域自适应[17]。例如,为了执行轴承和齿轮的部分迁移诊断,Li等人[12]提出了一种新的权重选择对抗网络。他们构造了一个辅助神经网络来获得源域样本和目标域样本的实例权重的网络。Zhang等人[15]建立了一种深度混合加权DA机制来诊断轴承故障,其中源域标签空间和目标域标签空间之间的先验关系是未知的。Chai等人[16]提出了一种多域精化迁移学习网络,通过权值选择机制从多个域中获取目标域对应的共享类,打破了每个源域的标签空间与目标域相等的假设。尽管上述基于DA的方法在多个领域和迁移任务中取得了很好的结果,但是他们忽视了两个重要因素。首先,他们仅仅关注目标域和源域边缘分布对齐(Marginal Distribution Alignment, MDA),而忽略了两域中对应类别的条件概率分布(Conditional Distribution Alignment, CDA)。Long等人[18]提出了包括MDA和CDA的联合分布,用来提高DA能力。然而,将类别条件概率分布近似替换条件概率分布一定程度影响了域混淆的能力。其次,分类迁移任务的目标是获得判别性且域不变特征。然而,几乎所有的DA模型主要考虑域不变的特征学习,同时忽略了判别特征学习。由于噪声干扰等因素的影响,故障传递函数比较杂乱,不利于故障的迁移诊断。因此,在DA中,我们更需要可区分的特征学习机制(判别性特征学习),也就是要求较小的类内距离和较大的类间距离。在可区分特征学习中,相关工作可以被分为两个方面:损失函数的设计和网络架构。例如,Liu等人提出L-SoftMax和A-SoftMax通过将原始欧式距离特征空间映射到角空间来调整所需的边缘。然而,由于余弦函数的非单调性,优化是极其困难的。Wu等人设计了一种包括两个分类器的新网络架构,以通过最大分类器差异(Maximum Classifier Discrepancy, MCD)对抗机制获得更好的识别性能。目前故障迁移诊断存在的关键问题是:(1)传统的联合分布自适应机制由于其机理近似性,不能较好地实现域混淆。(2)现有的DA诊断方法忽略了判别式特征学习。(3)现有的判别式特征学习方法存在优化困难或不稳定的问题。为了解决这些问题,提出了基于卷积神经网络(Convolutional Neural Network, CNN)的深度判别迁移学习网络(Deep Discriminative Transfer Learning Network, DDTLN)。DDTLN主要由改进的联合分布自适应(IJDA)和改进的Softmax(Improve SoftMax, I-Softmax)损失组成。在IJDA,CORAL和MMD相结合,作为一个新的分布差异度量(Distribution Discrepancy Metric, DDM),以提高域混淆。此外,本文还提出了一种改进的CDA机制,以实现更大程度的域混淆。为了获得更高的诊断精度和学习更多的可分离的功能,我们提出了I-Softmax。本文的主要贡献如下:考虑到现有CDA机制的近似性,我们提出了一种新的CDA机制,以更好地对齐两个域的真实的概率分布。改进后的CDA机制与 MDA机制相结合构成了IJDA机制。为了从均值和协方差两个方面更好地度量分布距离,设计了一种结合MMD和CORAL的改进度量,进一步减小了分布差异。为了学习更多可分离的故障特征,提出了一种新的具有灵活裕度的I-Softmax损失,使迁移框架在跨机器迁移诊断任务中具有更好的诊断能力。5 所提方法5.1 DDTLN框架所提出的DDTLN的结构绘制在图1中。该框架包括五个一维卷积模块、一个全局平均池化(Global Average Pooling, GAP)层和两个全连接(Fully Connected, FC)层。每个“Cov1D”块由卷积层、批归一化(Batch Normalization, BN)层和最大池化层组成。GAP和BN可以加速网络收敛,减轻过拟合现象。图1 DDTLN的网络结构;右箭头和左箭头分别表示前向传播和反向传播 表1 DDTLN的详细参数5.2 改进联合分布自适应为了克服方程中CDA近似的负面影响,我们提出了一种改进的CDA机制来对齐两个域中的条件概率分布。使用贝叶斯定理,条件概率分布可以转换为类条件概率分布的形式,其表示为: 其中,类条件概率分布可以表示为 , 表示类别先验分布。MDA的目标是对齐边缘概率分布,改进的CDA机制被表示为: 最终的IJDA机制可以定义为: 在定义IJDA机制之后,我们需要找到一个分布距离度量来评估等式中的边际分布差异和条件分布差异。由于大量的随机噪声,所采集的旋转机械的振动信号近似地经受高斯分布,该高斯分布包括两个估计参数(均值和方差)。因此,为了更好地实现IJDA机制,同时进一步增强域混淆能力,我们将CORAL和MMD分布差异度量组合为新的度量DDM(A, B): 将设计的DDM度量带入IJDA机制,最终的IJDA损失函数可以重写为: 5.3 I-SoftMax 损失函数对于多分类任务,SoftMax函数由于其概率解释和简单性而广泛用于神经网络。但在某些情况下,它仍然不能满足类内紧性和类间可分性的要求。因此,设计了一种新的I-Softmax损失,以学习更多可分离的特征并提高迁移任务中的得分,其定义如下: 其中 表示由特征提取器输出的特征向量, 和 分别表示与Xi的标签索引对应的第c个元素和其他元素。n表示特征向量的数目,并且和是控制决策边界的超参数。如果m = 1且k = 0,则I-SoftMax损失将等于原始SoftMax损失。 5.4 优化目标所提出的DDTLN模型包括两个优化目标:无监督训练挖掘IJDA损失和有监督训练挖掘分类I-SoftMax损失。5.4.1 IJDA损失在所提出的IJDA损失中,我们提供了改进的联合域自适应机制。此外,根据信号的正态分布特性,将MMD和CORAL相结合,实现了域混淆。IJDA损失方程中,目标域样本的标签信息由伪标签近似获得。通过IJDA损失对DDTLN进行优化后,得到的特征具有域不变性。另外,DDTLN可以直接通过梯度反向传播和链式法则进行优化。最后,对应于网络参数 的IJDA损失梯度表示为: 以 和 为例,具体公式计算如下: 5.4.2 I-Softmax损失 与原始SoftMax损失不同,I-SoftMax损失可以分离和压缩学习特征。这对于在多分类任务上获得比原始Softmax损失更高的准确率更有帮助。给定向量Z由I-SoftMax函数及其独热标签向量Y输出,I-SoftMax损失的梯度计算如下: 5.4.3 全局损失通常,分类交叉熵损失被应用于有标签的源域以用于学习区分性特征。为了在TL任务中学习更多可分离的特征,通过伪标签将I-Softmax损失应用于目标域样本。因此,全部分类损失界定为: 其中 和 分别表示源域I-SoftMax损失和目标域I-SoftMax损失。 参数是权衡参数。通过整合所提出的IJDA损失和I-SoftMax损失,整个目标函数被定义为: 其中 表示权衡参数。然后,利用RMSProp优化器来更新DDTLN的可训练参数: 其中 表示学习率。最终,DDTLN将获得域不变和更可分离的特征。6 实验6.1 数据集描述在本章节使用三个数据集的完成跨机器诊断任务来验证所提出DDTLN模型的有效性。我们将在下面对三个数据集的具体细节进行介绍:(1)CWRU:CWRU数据集由Case Western Reserve University收集,在轴承诊断案例中被广泛认为是基准数据集。它的实验平台包括驱动电机,加载电机,一个扭矩传感器,一个功率计和几个测试轴承。总共模拟四种负载:0 hp,1 hp,2 hp和3 hp。在轴承测试过程中,采集了包括正常状态(NC)、内圈故障(IF)、滚珠故障(BF)和外圈故障(OF)四种故障类型的原始振动信号。加速度传感器的采样频率设定为12000 Hz。(2)RTS:RTS数据集是根据RTS转子动力学试验台建立的,RTS转子动力学试验台是定制的实验平台。RTS数据集的故障类型类似地由NC、IF、BF和OF组成。该试验台的结构由伺服电机、联轴器、轴承、两个转子和传感器组成。原始振动信号由放置在右轴承座上的CMS无线传感器收集。模拟包括0 kN、1 kN、2 kN和3 kN载荷以收集足够的原始振动信号,采样频率设定为8 000 Hz。轴承的输入转速为1000 r/ min、2000 r/min和3000 r/min。(3)SWJTU:SWJTU轴承数据集由西南交通大学收集。SWJTU数据集的测试台由三相电机、两个轴承、加速度计和加载系统组成。故障类型也与CWRU和RTS轴承数据集相同。试验台还可以采集不同负载下的原始信号。加速度计的采样频率为10000 Hz。输入转速设定为896 r/min。6.2 故障诊断任务和实施细节在本章节使用三个数据集的完成跨机器诊断任务来验证所提出DDTLN模型的有效性。我们将在下面对三个数据集的具体细节进行介绍:表2 三个数据集的详细信息源域和目标域中每个类别的样本数为1000,因此源域和目标域分别有4000个样本。训练数据集包括源域样本和目标域样本,而测试数据集仅包括目标域样本。考虑到实际中故障样本较少,采用滑动采样技术对原始数据进行分割,以增加故障样本,相邻样本之间存在重叠点。另外,每个样本有3072个数据点,以获得足够的故障信息。为了减少额外的计算量和专家意见的影响,本文直接使用原始振动样本作为故障诊断模型的输入。通过使用上述三个方位数据集,构建了六个跨机器迁移任务来验证DDTLN的有效性:A → B,B → A,A → C,C → A,B → C和C → B。需要说明的是,这六项跨机器迁移任务全面包含了负荷和速度迁移。以A → B为例,“A”和“B”分别表示有标签的源域和没有标签的目标域。这些数据集的所有参数对于健康状况是相互不同的。这表明,当使用DDTLN精确诊断故障时,六个迁移任务是一个挑战。考虑到伪标签不等于真实标签,在等式3中将参数γ设置为γ = λ =0.1。该设置能够减少DDTLN训练期间IJDA损失和目标域I-SoftMax损失的影响。在实验过程中,学习率被设置为0.001。epoch设置为300,batch_size设置为256。此外,DDTLN在Tensorflow平台上使用NVIDIA 1050Ti的GPU进行训练。6.3 I-Softmax损失的有效性分析图2 I-Softmax在不同裕度下的测试精度I-SoftMax公式通过(k,m)来控制判决裕度。因此,这个对提高DDTLN的准确性和性能是非常重要的。然而,如果将I-Softmax损失设置为相对较小的值,它将失去分离和压缩学习特征的能力。相反,如果将其设置为相对较大的值,则DDTLN将不会收敛。因此,I-SoftMax损失的值必须首先通过实验确认。为了提高I-SoftMax的测试性能,我们将所有数据集都合并为一个数据集。然后,将数据集以7:3的比例划分为训练数据集和测试数据集。不同裕度的测试结果如图2所示。当m = 3时,与m的其他值相比,测试精度随k略有变化,并且当k = 16时达到最大值。因此,在随后的诊断实验中选择m = 3和k = 16。在这里我们借用传统的A-Softmax损失和L-Softmax损失用于对比验证I-Softmax的优越性。然而,它们无法收敛。因此,未列出其测试结果。同样,我们也将其与Soft-margin Softmax 对比,结果发现所提出的I-Softmax损失具有更灵活的裕度来控制决策边界,并且具有更高的诊断准确性。图3 投影到单位球体上的学习特征的可视化为了直观地展示从不同边缘学习的特征的区分能力,这些特征从最后一个FC层投影到单位球体中,如图3所示。可以观察到,I-Softmax导致更严格的决策边界和更有区别的分布。与原始Softmax和Soft-margin Softmax相比,I-Softmax显式地减小了类内距离,增大了类间距离。6.4 实验结果与讨论为了进一步测试所提出的DDTLN的有效性和优越性,使用几种众所周知的DA方法进行比较,例如DDC, DCORAL, DANN, MCD, FTNN和JDA。DDC, DCORAL, FTNN和JDA是著名的基于距离度量的DA模型,MCD和DANN是典型的基于对抗机制的DA模型。和DDTLN一样,MCD和JDA也可以实现细粒度的类分布对齐。为了验证所提出的IJDA机制的优点,IJDA,包括原始SoftMax损失和IJDA损失也测试了六个迁移任务。这些比较方法的骨干网络和训练规则与DDTLN相同。表3 实验结果六个跨机器迁移任务的实施,以证明诊断的准确性和鲁棒性的DDTLN。为了确保DDTLN的可靠性,每个方法在每个迁移任务中执行10次。十种方法的平均诊断准确度和相应的标准偏差。如下图所示,提出的IJDA机制的平均准确率比原IDA机制高6.37%,反映了IJDA机制的有效性。此外,为了证明所提出的DDM和I-Softmax的有效性,我们进行了消融实验。在不使用I-SoftMax的情况下,分别基于MMD、CORAL和DDM的IJDA(MMD)、IJDA(CORAL)和IJDA(DDM)被应用于故障迁移诊断。从表3中我们可以清楚地知道,所提出的度量DDM在IJDA机制中具有更好的性能。特别地,所提出的DDTLN的平均准确度超过90%,与其他方法相比,它是30.83%。应该注意,DDTLN在每个迁移任务中是最高的。总之,建议的DDTLN方法具有更好的诊断能力比典型的DA方法。图4 通过五种DA模型获得的学习特征的t-SNE映射为了直观地展示DDTLN的优势,t分布随机邻居嵌入(t-SNE)用于将学习的高维特征映射到二维空间。对于任务A → B,通过五个模型获得的t-SNE图如图4所示。所提出的DDTLN模型可以获得最小类内距离和最大类间距离。这主要是因为与现有的DA模型相比,DDTLN可以更好地对齐目标域和源域的边缘分布和条件分布。换句话说,DDTLN可以学习更多的类别区分和域不变特征。比较结果进一步证明了DDTLN模型比典型的DA方法具有更高的精度。6.5 进一步实验研究虽然DDTLN模型在三个轴承数据集上表现出了良好的诊断性能,但这些数据集中的故障是由人工加工产生的,其故障形状通常是规则的。由此可见,三个数据集中的故障影响可能是相似的。IMS公共数据集[33]是一个众所周知的开放数据集,由辛辛那提大学收集。试验中,径向载荷(6000 lbs)通过弹簧机构直接施加到轴和轴承上,采样率设置为20000 Hz,输入速度为2000 r/min。与A、B和C相比,IMS中的故障是在轴承寿命周期试验过程中自然产生的,并且其形状不规则。因此,IMS与A、B和C有很大的区别。为了进一步评估DDTLN的有效性和优越性,利用存在实际故障的IMS构建了其他6个跨机器迁移任务,包括IMS → A、A → IMS、IMS → B、B → IMS、IMS → C和C → IMS。类似地,使用IMS数据集中在四种健康条件(NC、IF、BF和OF)下获得的样本。表4 IMS的实验结果实验结果如表4,可以看出DDTLN的平均准确率明显优于其他诊断模型,其诊断准确率超过84%。但比表4低5.97%。这可能是因为IMS数据集中的断层是不规则的,并且与A、B和C中的断层有很大差异。比较结果再次验证了MWSAN模型在跨机器迁移诊断中具有较强的泛化能力。7 总结本文提出了一种新的迁移学习网络DDTLN来实现跨机器故障诊断。DDTLN主要由IJDA机制和I-Softmax损失组成。在IJDA中,构造了一个新的由MMD和CORAL组成的分布差异度量来增强域混淆。此外,提出了一种改进的CDA机制,以提高源域和目标域之间的分布匹配程度。与原有的Softmax算法相比,I-Softmax损失算法在学习更多可分离特征方面具有更强的能力。此外,它可以灵活地控制决策边界,可以方便地优化。通过IJDA机制和I-Softmax损失,DDTLN获得了更多可分离但域不变的特征。DDTLN在六个跨机器迁移任务中平均准确率超过90%。最后,实验结果也验证了DDTLN比已知的DA方法具有更强的诊断能力。本研究存在DDTLN的可解释性和源域与目标域之间可移植性评估的局限性。在未来的工作中,我们将结合一些信号处理算法结合到迁移学习神经网络,以提高其可解释性,并探讨如何评估两个域之间的可移植性。免费获取方法点击1次文末广告,对本文点赞+在看,发送截图至后台,即可免费获得链接(代码+论文)。由于是人工发送,不一定及时发送,最晚24h内发送。编辑:曹希铭校核:钱泉、李正平、张泽明、张勇、王畅、陈凯歌、赵栓栓、董浩杰该文资料(DDTLN)搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈