首页/文章/ 详情

论文学习｜第三篇-综述-无监督深度迁移学习在智能故障诊断中的应用： (前言与研究背景及定义)

故障诊断与python学习

1年前浏览859

论文学习

非常尊重并感谢科研人员做出的辛勤贡献！若有侵权，烦请联系处理！

若有翻译不当之处，恳请批评指正！

本篇综述详细阐述了智能故障诊断中比较热门的无监督学习迁移学习方法(UDTL)，包括定义及分类、已有学者工作、开源基准代码等。适合迁移学习方向初学者系统学习入门。

本篇将介绍第1篇：引言与迁移学习的背景及相关定义

正文共： 7835字 4图

预计阅读时间： 15分钟

论文信息

论文题目：Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study

期刊、年份：Transaction on instrument and measurement，2021

作者：Zhibin Zhao, Qiyang Zhang, Xiaolei Yu, Chuang Sun, Shibin Wang, Ruqiang Yan, Xuefeng Chen

机构：The State Key Laboratory for Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China

1. 引言

2. 背景和定义

2.1 UDTL的定义

2.2 基于UDTL的IFD分类

2.3 基于UDTL的IFD动机

2.4 主干网络的结构

3. 标签一致的UDTL(Label-consistent UDTL)

3.1 基于网络的UDTL(Network-based UDTL)

3.2 基于实例的UDTL(Instance-based UDTL)

3.3 基于映射的UDTL(Mapping-based UDTL)

3.4 基于对抗的UDTL(Adversarial-based UDTL)

4. 标签不一致的UDTL(Label-inconsistent UDTL)

4.1 部分UDTL(Partial UDT)

4.2 开放集UDTL(Open set UDTL)

4.3 通用UDTL(Universal UDTL)

5. 多域UDTL

5.1 多域适应(Multidomain Adaptation)

5.2 域泛化(Domain Generalization)

6. 数据集

6.1 公开数据集

(1)凯斯西储大学数据集(Case Western Reserve University，CWRU)

(2) 帕德博恩大学数据集(Paderborn University，PU)

(3) 江南大学数据集(JiangNan University，JNU)

(4) PHM2009年比赛数据集

(5)东南大学数据集(Southeast University，SEU)

6.2 数据分割

7. 对比研究

7.1 训练细节

7.2 标签一致UDTL

7.3 标签不一致UDTL

8. 进一步讨论

8.1 特征可迁移性

8.2 主干网络和瓶颈层的影响

8.3 负迁移

8.4 物理先验(Physical priors)

8.5 标签一致迁移

8.6 多域迁移

8.7 其它方面

9. 总结

摘要

近年来，智能故障诊断的发展很大程度上依赖于深度表征学习和大量的带标签数据。然而，机械设备通常在不同的工作环境下运行，或者目标任务与收集到的训练数据有不同的分布(域偏移问题)。此外，新收集的测试数据在目标域通常是无标签的，基于此提出基于无监督深度迁移学习（unsupervised deep transfer learning，UDTL）的智能故障诊断（Intelligent fault diagnosis，IFD）方法。虽然它已经取得了巨大的发展，但还没有建立一个标准的开放源代码框架和基于UDTL的IFD的对比研究。在本文中，我们构建了一个新的分类方法，并根据不同的任务对基于UDTL的IFD进行了全面的综述。通过对一些典型方法和数据集的比较分析，揭示了基于UDTL的IFD中一些尚未被研究的开放性和本质问题，包括特征的可转移性、主干网络的影响、负迁移、物理先验等。为了强调基于UDTL的IFD的重要性和可重复性，将向研究界发布整个测试框架，以促进未来的研究。综上所述，发布的框架和对比研究可以作为开展基于UDTL的IFD新研究的扩展接口和基础成果。代码框架可以在https://github.com/ZhaoZhibin/UDTL上找到。

关键词: 对比研究, 智能故障诊断(IFD), 可重复性(Reproducibility), 分类和调查(taxonomy and survey), 无监督深度迁移学习(UDTL)

Ⅰ 引言

随着工业大数据和物联网的快速发展，航空发动机、直升机、高铁等工业设备的故障诊断与健康管理（Prognostic and health management，PHM）越来越受欢迎，涌现出许多智能维护系统。智能故障诊断（Intelligent fault diagnosis，IFD）正在成为PHM系统中的一个重要分支。基于传统机器学习方法[1]的IFD，包括随机森林[2]和支持向量机[3]，在研究和行业场景中得到了广泛的应用。然而，这些方法往往需要手动提取特征或结合其他先进的信号处理技术，如时频分析[4]和稀疏表示[5，6]，同时，随着可用数据的增加，具有表征学习能力的数据驱动方法也变得越来越重要。因此，能够从原始信号中自动提取有用特征的深度学习（Deep learning，DL）[7]逐渐成为多个领域[8][11]和PHM[12][14]的研究热点。目前的研究已经成功验证了用于PHM任务的有效DL模型，如卷积神经网络（Convolutional neural network，CNN）[15]和稀疏自编码器（Sparse autoencoder，SAE）[16]，并在[17]中进行了基准研究，以便更好地进行比较和发展。

在基于DL的IFD有效性的背后，存在两个必要的假设：

1)来自训练数据集（源域）的样本应该与来自测试数据集（目标域）的样本分布相同。

2)在训练阶段有大量带标签数据可用。

虽然带标签数据可能是由动力学仿真或模拟故障实验产生的，但产生的数据与真实场景下的测试数据并不完全一致。即基于训练数据集的DL模型部署到测试数据集时泛化能力较弱。此外，旋转机械经常在不同的工作条件下运行（如负载和转速），这也要求来自一种工况的数据集的训练模型能够成功地迁移至另一种工况的测试数据集。总之，这些因素使得在源域上训练好的模型难以直接迁移至目标域。

由于在不同的应用场景或不同的工况中具有内在的相似性，这两个域中存在的共享特性允许域偏移是可控的。因此，为了使在源域训练好的DL模型能够很好地迁移到目标域，需要在IFD中引入一种新的范式，称为深度迁移学习(Deep transfer learning, DTL)。一种有效而直接的DTL方法是利用目标域的少量带标签数据对DL模型进行微调，然后利用微调后的模型对测试样本进行诊断。但是，新收集的数据或不同工况下的数据通常是不带标签的，有时很难甚至不可能给这些数据打上标签。因此，在本文中，我们研究了DTL的无监督版本，称为基于无监督深度迁移学习（Unsupervised deep transfer learning，UDTL）的IFD，它是在假定源域数据有标签的情况下，对目标域上的无标签数据进行预测诊断。值得一提的是，UDTL有时被称为无监督域适应，在本文中，我们没有对这两个概念进行严格的区分。

由于UDTL的应用价值、开源代码以及基准精度，它在计算机视觉和自然语言处理领域得到了广泛的应用，并取得了巨大的成功。然而，在基于UDTL的IFD领域很少有开放源代码或基准精度，很多基于UDTL的IFD的研究都是通过简单地使用其他领域已经发表的模型来发表的。由于缺乏开放源代码，这些论文的结果很难重复进行进一步的比较。这不仅不利于识别最先进的方法，而且从长远来看也不利于该领域的发展。因此，进行对比研究、提供基准精度并发布基于UDTL算法的开放源代码是非常重要的。对于基于UDTL算法的测试，统一的测试框架、参数设置和数据集是影响对比公平性和有效性的三个重要方面，而由于这些因素的不一致性，存在很多不公平和不合适的比较。似乎学者们在不断地结合新的技术，提出的算法总是比以前的算法性能更好，这就产生了一个问题：这种改进是有利于IFD还是仅仅依赖于过多的参数调整？然而，在基于UDTL的IFD中，关于如主干网络的影响、特征的可迁移性等开放性和本质问题的研究却很少。

关于迁移学习，IFD已经有一些比较好的综述论文。Zheng等[18]总结了基于迁移学习的知识迁移策略的跨域（cross-domain）故障诊断，并给出了一些公开数据集，用于验证诊断方法的性能。Yan等人[19]回顾了利用不同迁移学习方法进行旋转机械故障诊断的知识迁移的最新进展，并提供了四个案例研究来比较不同方法的性能。Lei等人[20]回顾了基于机器学习方法的IFD，重点介绍了迁移学习理论，将一个或多个数据集中的诊断知识迁移到其他相关数据集。并指出迁移学习理论可能是缩小实验验证与实际应用之间差距的重要途径。然而，上述所有的综述论文并没有将重点放在基于UDTL的IFD上，也并没有提供用于公平和合适的对比实验的开源测试框架。它们都更关注基于标签一致(也称为封闭集)的UDTL的IFD，它们假设源域和目标域具有相同的标签空间，但最近的许多研究论文关注的是标签不一致或多域UDTL，这更接近于工程场景。因此，仍然需要进行全面的审查，以涵盖基于UDTL的IFD从摇篮到开花（from the cradle to the bloom and ）的前沿发展，并指导未来的发展。

为了填补这一空白，本文讨论了常用的基于UDTl的设置和算法，并构造了一个新的基于UDTL的IFD分类法。在每个单独的类别中，我们还对基于UDTL的IFD的最近发展进行了全面的回顾。将一些典型的方法集成到一个统一的测试框架中，在5个公开数据集上进行测试。这个带有源代码的测试框架将向研究界公开发布，以促进基于UDTL的IFD的研究。通过这种对比研究和开放源代码，作者试图对目前的算法进行深入的讨论(值得一提的是，结果只是精度的一个下界)，试图找到决定迁移性能的核心。

本文的主要贡献总结如下：

1)新的分类方法与综述：根据UDTL的不同任务，建立了基于UDTL的IFD新分类方法。其分类依据顺序依次为源域的数量、训练阶段目标域数据的使用情况、源域和目标域的标签一致性、源域和目标域标签集之间的包含关系和迁移方法的级别。我们还为每种类别提供了基于UDTL的IFD的最全面概述。

2)多种数据集和数据分割：我们收集了大多数可用的公共数据集，并对其适应性进行了详细的讨论。我们还讨论了数据分割的方式，并阐述了如何将数据分割为训练数据集和测试数据集更合适，而不管它们是在源域还是目标域。

3)对比研究与进一步讨论：我们对各种基于UDTL的IFD方法进行评价，从多个角度进行系统的对比分析，使未来的研究更具可比性和意义。我们还讨论了特征的可转移性、主干网络的影响、负转移等问题。

4)开源代码：为了强调基于UDTL的IFD的重要性和可重复性，我们发布了整个评估代码框架，它实现了本文中讨论的所有基于UDTL的方法。同时，这是一个可扩展的框架，为每个人保留了一个扩展的接口，让他们可以结合不同的算法，加载自己的数据集来进行新的研究。代码框架可以在https://github.com/ZhaoZhibin/UDTL上找到。

本文的其余部分组织如下。第二节提供了基于UDTL的IFD的背景和定义。第三至第五节介绍了基于UDTL的IFD的基本概念、评价算法和综述。之后，第六至第八节对数据集、评价结果和进一步讨论进行了研究，然后是第九节的结论部分。

Ⅱ 背景与定义

1. UDTL定义

为了简要描述UDTL的定义，我们将介绍一些基本符号。假设源域的标签都是可用的，源域的定义如下:

其中表示源域，为第i个样本，为所有样本的并集，为第i个样本的第i个标签，为所有不同标签的并集，为源域样本总数。另外，假设目标域的标签不可用，则目标域的定义如下:

式中表示目标域，为第i个样本，为所有样本的并集，表示目标样本的总数。

源域和目标域分别服从概率分布P和Q。我们希望建立一个模型，可以对目标域中的未标记样本x进行分类：

其中是预测结果。因此，UDTL旨在利用源域数据监督[21]最小化目标风险

同样，UDTL的总体损失可以写成：

其中是下式是softmax交叉熵损失，是权衡参数，而表示用来减少源域和目标域之间特征差异的部分损失

其中C是所有可能的类的数量，是数学期望，是指标函数。

2. 基于UDTL的IFD分类

在本节中，我们将介绍基于UDTL的分类，如图2-1所示。我们从宏观上根据源域的数量将基于UDTL的IFD分为单域和多域UDTL。接下来，我们将对每一类做一个简单的介绍，并在下一部分进行详细的描述。

图 2‑1 基于UDTL方法的分类

1)单域（Single-Domain）UDTL：可以进一步分为标签一致（封闭集）和标签不一致的UDTL。如图2-1所示，标签一致的UDTL表示源域和目标域的标签集是一致的。根据Tan等人[22]的观点，标签一致的UDTL可以从方法论层面分为四类：

1、基于网络的方法

2、基于实例的方法

3、基于映射的方法

4、基于对抗的方法

此外，根据标签集之间的包含关系将标签不一致的UDTL分为

1、部分任务（Partial task）

2、开放集任务（Open set task）

3、通用任务（Universal task）

如图2-2所示，

1、部分UDTL表示目标域标签集是源域标签集的子空间

2、开放集UDTL表示目标域标签集含有未知标签

3、通用UDTL是前两种情况的组合

值得一提的是，三个任务从方法论层面可以进一步划分为上述四种方法。

图 2‑2 可视化解释不同的迁移方法设置。另外，不同的颜色代表不同的域，虚线表示该域不参与训练

2)多域（Multidomain）UDTL：根据训练阶段对目标数据的使用情况，可以进一步分为

1、多域适应(Multidomain adaptation)

2、域泛化(Domain generalization, DG)

多域适应是指来自目标域的未带标签样本参与训练阶段，DG则相反，即目标域的未带标签样本未参与训练阶段。此外，这两种情况还可以进一步分为标签一致和标签不一致UDTLs。

3. 基于UDTL的IFD的动机

由于工况、故障大小、故障类型等因素的影响，训练样本和测试样本的分布往往不同。因此，最近学者们引入了基于UDTL的IFD来解决这个域偏移问题，因为在特定的空间中有一些共享的特征。利用这些共享特征，基于UDTL的IFD应用可以主要分为四类：不同的工况、不同类型的故障、不同的位置和不同的机器设备。

1)工况不同：在监测期间，由于速度、负载、温度等因素的影响，工况经常变化。采集到的信号可能包含域偏移，这意味着在不同的工况下，数据的分布可能存在明显的差异[23]。基于UDTL的IFD的目的是利用一种工况下的信号的模型进行训练后可以迁移到另一种不同工况下的信号。

2)故障类型不同：同一组件发生不同类型的故障，源域和目标域之间可能存在标签差异。因此，以UDTL为基础的IFD有3种情况。

1、第一种是目标域出现未知故障类型（开放集迁移）

2、第二种是源域的部分故障类型出现在目标域（部分迁移）

3、第三种是前两种情况同时发生（通用迁移）

基于UDTL的IFD的目的是将带有某些类型故障的训练模型迁移到具有不同类型故障的目标域。

3)位置不同：由于安装在同一台机器上的传感器往往负责监测不同的部件，所以位于故障部件附近的传感器更适合反映故障信息。然而，关键零部件的故障率不同，导致来自不同位置的信号有不同数量的标记数据。基于UDTL的IFD的目的是，用来自一个位置的大量标记数据训练的模型可以迁移至其他位置的未带标签数据的目标域。

4)不同的机器设备：由于测试成本和安全性的原因，很难收集到足够多的真实机器设备的带标签故障样本。此外，还可以通过动力学仿真（Dynamic simulation）或故障模拟（Fault seeding）实验产生足够多的带标签数据。然而，由于结构和测量环境的相似性，动力学仿真或故障模拟实验的数据分布与真实机器的数据分布不同但相似。因此，基于UDTL的IFD的目的是可以将模型迁移至从真实机器设备上收集到的测试数据。

4. 主干网络

基于UDTL的IFD最重要的部分之一是主干网络结构，它起到特征提取的作用，对测试精度有着巨大的影响。例如在图像分类领域，不同的主干网络，如VGG[24]和ResNet[25]，具有不同的特征提取能力，导致分类性能不同。

然而，对于基于UDTL的IFD，不同的研究都有自己的主干网络，很难确定谁的主干网络更好。因此，由于主干网络的代表能力不同，直接与其他发表论文的结果进行比较是不公平和不合适的。在本文中，我们尝试使用相同的CNN主干网络来验证不同的基于UDTL的IFD方法的性能，以确保公平的比较。

如图2-3所示，CNN主干由4个1-D卷积层，其后跟着1-D批处理归一化(Batch normalization，BN)层和一个ReLU激活函数组成。此外，第二层是由1-D最大池化层（Max-pooling），第四种组合还包括1-D自适应最大池化层（Adaptive max-pooling layer）以实现输入长度的自适应。卷积输出被展平，并通过一个全连接(Fully connected layer，Fc)层、一个ReLU激活函数和一个dropout层。具体参数见表2-1。

表2‑1 网络模型参数

注明

1、由于本文翻译篇幅过大，本篇到此结束，下一篇将介绍续标签一致UDTL。

2、若需引用本文的公式、专业术语等内容建议再细读原论文核实；若本文对您的论文idea有帮助，建议引用原论文～

参考文献

[1]Z. Zhao et al., "Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study," in IEEE Transactions on Instrumentation and Measurement, vol. 70, pp. 1-28, 2021, Art no. 3525828, doi: 10.1109/TIM.2021.3116309.

翻译：李正平、张泽明

编辑：李正平、张泽明

如需转载，请后台联系小编

说明：图片来源原论文，若有侵权，烦请后台联系处理

来源：故障诊断与python学习

System 旋转机械通用航空理论

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-06-22