首页/文章/ 详情

论文学习｜第三篇-综述-无监督深度迁移学习在智能故障诊断中的应用： (标签一致的UDTL)

故障诊断与python学习

1年前浏览1321

论文学习

非常尊重并感谢科研人员做出的辛勤贡献！若有侵权，烦请联系处理！

若有翻译不当之处，恳请批评指正！

本篇综述详细阐述了智能故障诊断中比较热门的无监督学习迁移学习方法(UDTL)，包括定义及分类、已有学者工作、开源基准代码等。适合迁移学习方向初学者系统学习入门。

本篇将介绍第2篇：标签一致的UDTL

正文共： 8531字 7图

预计阅读时间： 17分钟

论文信息

论文题目：Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study

期刊、年份：Transaction on instrument and measurement，2021

作者：Zhibin Zhao, Qiyang Zhang, Xiaolei Yu, Chuang Sun, Shibin Wang, Ruqiang Yan, Xuefeng Chen

机构：The State Key Laboratory for Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China

1. 引言

2. 背景和定义

2.1 UDTL的定义

2.2 基于UDTL的IFD分类

2.3 基于UDTL的IFD动机

2.4 主干网络的结构

3. 标签一致的UDTL(Label-consistent UDTL)

3.1 基于网络的UDTL(Network-based UDTL)

3.2 基于实例的UDTL(Instance-based UDTL)

3.3 基于映射的UDTL(Mapping-based UDTL)

3.4 基于对抗的UDTL(Adversarial-based UDTL)

4. 标签不一致的UDTL(Label-inconsistent UDTL)

4.1 部分UDTL(Partial UDT)

4.2 开放集UDTL(Open set UDTL)

4.3 通用UDTL(Universal UDTL)

5. 多域UDTL

5.1 多域适应(Multidomain Adaptation)

5.2 域泛化(Domain Generalization)

6. 数据集

6.1 公开数据集

(1)凯斯西储大学数据集(Case Western Reserve University，CWRU)

(2) 帕德博恩大学数据集(Paderborn University，PU)

(3) 江南大学数据集(JiangNan University，JNU)

(4) PHM2009年比赛数据集

(5)东南大学数据集(Southeast University，SEU)

6.2 数据分割

7. 对比研究

7.1 训练细节

7.2 标签一致UDTL

7.3 标签不一致UDTL

8. 进一步讨论

8.1 特征可迁移性

8.2 主干网络和瓶颈层的影响

8.3 负迁移

8.4 物理先验(Physical priors)

8.5 标签一致迁移

8.6 多域迁移

8.7 其它方面

9. 总结

摘要

近年来，智能故障诊断的发展很大程度上依赖于深度表征学习和大量的带标签数据。然而，机械设备通常在不同的工作环境下运行，或者目标任务与收集到的训练数据有不同的分布(域偏移问题)。此外，新收集的测试数据在目标域通常是无标签的，基于此提出基于无监督深度迁移学习（unsupervised deep transfer learning，UDTL）的智能故障诊断（Intelligent fault diagnosis，IFD）方法。虽然它已经取得了巨大的发展，但还没有建立一个标准的开放源代码框架和基于UDTL的IFD的对比研究。在本文中，我们构建了一个新的分类方法，并根据不同的任务对基于UDTL的IFD进行了全面的综述。通过对一些典型方法和数据集的比较分析，揭示了基于UDTL的IFD中一些尚未被研究的开放性和本质问题，包括特征的可转移性、主干网络的影响、负迁移、物理先验等。为了强调基于UDTL的IFD的重要性和可重复性，将向研究界发布整个测试框架，以促进未来的研究。综上所述，发布的框架和对比研究可以作为开展基于UDTL的IFD新研究的扩展接口和基础成果。代码框架可以在https://github.com/ZhaoZhibin/UDTL上找到。

关键词: 对比研究, 智能故障诊断(IFD), 可重复性(Reproducibility), 分类和调查(Taxonomy and survey), 无监督深度迁移学习(UDTL)

Ⅲ 标签一致的UDTL

标签一致（也称为封闭集）的基于UDTL的IFD假设源域与目标域具有相同的标签空间。在本节中，我们将标签一致的UDTL从方法方面分为基于网络、基于实例、基于映射和基于对抗的方法。

1. 基于网络的UDTL

1）基本概念：基于网络的UDTL是指将源域预训练好的部分网络参数直接迁移作为测试过程网络的部分参数，或者利用目标域的少量带标签数据对网络参数进行微调。最流行的基于网络的UDTL方法是利用目标域中的少量带标签的数据对训练好的模型进行微调。但是，对于基于UDTL的IFD，目标域中的标签不可用。我们使用带有瓶颈层的主干网络，由FC层(out_features=256)、一个ReLU激活函数、一个dropout层(p=0.5)和一个softmax分类器组成，来构建我们的基本模型(我们称之为basis model)，如图3-1所示。训练好的模型直接对目标域内的样本进行测试，这意味着源域和目标域共享相同的模型和参数。

图 3‑1 基本模型的结构

2）IFD的应用：在[26]-[37]中使用源域数据预训练好的深度神经网络，通过冻结其部分参数，然后将部分网络参数迁移到目标网络，其他参数通过用少量目标域数据进行模型微调。在[38-42]中使用ImageNet预训练好的深度神经网络，利用有限的目标数据进行微调，以适应工程应用领域。在[43]和[44]中使用集成技术和多通道信号对目标网络进行初始化，并利用来自目标域的少量训练样本进行微调，比如灰度图[45]、时频图[46]和热力图[47]等二维图像对特定设计的网络进行预训练，通过微调将网络迁移至目标任务。Qureshi等人[48]在一个风电场预训练了9个深度稀疏自编码器，并通过微调预训练网络对另一个风电场进行预测。Zhong等人[49]在足够多的正常样本上训练CNN，然后用支持向量机替换FC层作为最终模型。Han等人[50]讨论并比较了三种微调策略：仅微调分类器、微调特征描述子（Feature descriptor）、同时微调特征描述子和分类器用于诊断不可见机器条件。Xu等人[51]将离线的CNN在源域上进行预训练，通过对目标域上的在线CNN进行微调，直接迁移到在线CNN的浅层进行在线IFD。Zhao等人[52]提出了一种在源域上预训练好的多尺度卷积迁移学习网络，然后将模型迁移到其他不同但相似的域，并进行适当的微调。

2. 基于实例的UDTL

1）基本概念：基于实例的UDTL是指对源域的实例进行权重调整，以辅助分类器预测标签或使用实例的统计信息来帮助对齐目标域，如TrAdaBoost[53]和Adaptive BN (AdaBN)[54]。在本文中，我们使用AdaBN来表示一种基于实例的UDTL方法，它不需要来自目标域的标签。

BN是最重要的技术之一，它可以用来避免内部协变量偏移的问题。由于BN使输入分布更加稳定，因此可以提高训练速度。详细的描述和属性可以参考[55]。值得一提的是，BN层只在训练过程中更新，在测试过程中使用训练样本的全局统计量对测试样本进行归一化。

为了增强泛化能力，在[54]中提出了一种简单的、无参数的处理域偏移问题的AdaBN方法。AdaBN的主要思想是在测试阶段将BN各层的全局统计信息替换为目标域的统计信息。在我们的AdaBN实现中，经过训练后，我们提供了两种更新策略来使用目标域数据微调BN层的统计量，包括通过批次更新和整个数据更新。在本文中，考虑到内存限制，我们通过批次更新BN层的统计信息

2）IFD的应用：Xiao等人[56]通过调整每个训练样本的权重因子，利用TrAdaBoost增强故障分类器的诊断能力。Zhang等人[57]和Qian等人[58]使用AdaBN来提高模型的域适应能力，确保每一层都接收到相似分布的数据。

3. 基于映射的UDTL

1）基本概念：基于映射的UDTL指的是通过特征提取器将源域和目标域的实例映射到特征空间。有很多方法属于基于映射的UDTL，如

1、欧拉距离（Euclidean distance）、

2、闵可夫斯基距离距离（Minkowski distance）、

3、KL散度（Kullback Leibler，KL）、

4、相关对齐（CORAL alignment）[59]、

5、最大均值差异(Maximum mean discrepancy，

MMD)[60，61]、

6、多核MMD（Multikernel MMD，MK-MMD）[21][62]、

7、联合分布适配(Joint distributionadaptation，JDA)[63]、

8、平衡分布适配(Balance distribution adaptation，BDA)[64]、

9、联合MMD(Joint MMD，JMMD)[65]。

在本文中，我们使用MK-MMD、JMMD和CORAL来表示基于映射的方法，并测试它们的性能。

a）MK-MMD：为了介绍MK-MMD的定义，我们简单解释一下MMD的概念。MMD最早在[60]中提出，并被许多学者用于迁移学习[66，67]。再生核希尔伯特空间（Reproducing kernel Hilbertspace，RKHS）中定义的MMD是边缘分布与之间的核嵌入的平方距离。RKHS是希尔伯特函数空间，其中点求值是连续线性泛函，在[68]中可以找到一些例子。MMD的计算公式为：

式中为使用核函数k的RKHS(一般采用高斯核函数作为核函数)，为到RKHS的映射。

每个核的参数选择对最终性能至关重要。为了解决这一问题，Gretton等人[62]提出了可以同时最大化双样本测试功率和最小化II型误差的MK-MMD。对于MK-MMD，学者们经常使用m核的凸组合来提供有效的映射估计

其中为不同核的加权参数(本文中所有。受[21]中提出的深度适配网络（Deepadaptation neural，DANs）的启发，我们设计了一种基于UDTL的IFD模型，在损失函数中加入MK-MMD，实现如图3-2所示的特征对齐。另外，最终损失函数定义如下

其中为一个权衡参数，表示MMD的多核版本。此外，我们简单地使用高斯核，核数等于5个。根据中值启发式算法将每个核的带宽设置为训练数据上的中值两两距离[62]。

图 3‑2 基于MK-MMD的UDTL的IFD

b）JMMD：MMD和MK-MMD的提出是为解决问题，但其不能用于处理联合分布产生的域偏移（如）。因此，[65]设计的JMMD用来测量经验联合分布和的距离。JMMD的公式如下[65]:

是在张量积希尔伯特空间的特征映射，是更高的网络层集，是层数，意味着源域产生的第层激活，意味着目标域产生的第层激活。

受联合适配网络（Joint adaptationnetwork，JAN）的启发，该网络使用JMMD来对齐域偏移[65]，我们设计了一个基于UDTL的IFD方法，在损失函数中加入JMMD，实现特征对齐，如图3-3所示。最终损失函数定义如下:

其中是一个权衡参数。另外，JMMD的参数设置与JAN相同。

图 3‑3 基于JMMD的UDTL的IFD

c）CORAL：CORAL损失旨在对齐源域和目标域分布的二阶统计信息，最早在[69]中提出，并进一步用于UDTL[59]中。首先，根据[59]和[69]，我们给出了CORAL损失的基本定义为

式中为F-范数（Frobeniusnorm），为每个样本的维数。下式中定义的和是协方差矩阵

其中表示列向量，列向量的元素都为1。

受[59]中提出的Deep CORAL的启发，我们设计了一种基于UDTL的IFD方法，将CORAL损失加入到损失函数中，实现了如图3-4所示的特征迁移。最后的损失函数定义如下：

是一个权衡的参数。

图 3‑4 基于CORAL的UDTL的IFD

2）IFD的应用：在[70]和[71]中使用了BDA用于自适应平衡深度神经网络学习到的特征域之间的边缘分布和条件分布差异的重要性。CORAL损失[72]、[73]和最大方差差异（Maximum variance difference，MVD）[74]也被用来减小不同域间的分布差异。Qian等人[58]，[75]考虑了高阶矩，提出了HKL散度来调整旋转机械故障诊断的域分布。[76]提出了用于测量源域和目标域张量表示的距离，将张量表征对齐到不变张量子空间中以用于轴承故障诊断。

另一种叫MMD度量距离被广泛应用于智能诊断领域[77-85]。Tong等人[86]、[87]通过精炼轴承故障诊断的伪标签（Refining pseudotest labels for bearing fault diagnosis），在特征空间中通过MMD同时减少了跨域的边缘分布和条件分布。Wang等[88]提出了一种基于估计伪标签（Estimated pseudolabels）的条件MMD，以缩短轴承故障诊断的条件分布距离。通过最小化MMD，同时对齐在多层中边缘分布和条件分布[89，90]。Yang等人[91]在MMD中用多项式核（Polynomial kernel）代替高斯核，以便更好地对齐分布差异。Cao等人[92]提出了伪分类MMD，以缩小类内跨域分布差异。MMD还与其他技术相结合，如格拉斯曼流形（Grassmann manifold）[93]、局部保持投影（Localitypreserving projection）[94]和图拉普拉斯正则化（GraphLaplacian regularization）[95，96]，以提高分布对齐的性能。

[23]和[97][101]中使用了MK-MMD来更好地将学习到的特征在源域的分布迁移到IFD的目标域。Han等人[102]和Qian等人[103]使用JDA对齐条件分布和边缘分布，同时为显著的分布差异构建更有效、更稳健的特征表示。Wu等[104]进一步使用灰狼优化算法学习JDA的参数。在JMMD的基础上，Cao等人[105]提出了一种软JMMD，通过增强辅助软标签来减小边缘分布和条件分布差异。

4. 基于对抗的UDTL

1）基本概念：基于对抗的UDTL是一种对抗方法，其是指利用域鉴别器来减少特征提取器产生的源域和目标域之间的特征分布差异。在本文中，我们使用两种常用的方法，即域对抗神经网络(DANN)[106]和条件域对抗网络(CDAN)[107]来表示基于对抗的方法，并测试其准确性。

a）DANN：与MMD和MK-MMD相似，DANN是被提出来解决的问题。它的目的是训练特征提取器、区分源域和目标域的域鉴别器和类预测器，同时对齐源域和目标域分布。也就是说，DANN通过训练特征提取器来阻止域鉴别器区分两个域的差异。设为特征提取器，其参数为，为类预测(分类)器，其参数为，为域鉴别器，其参数为。从而预测(分类)损失和对抗损失(即二元交叉熵损失)可以重写为:

综上所述，DANN的总损失可以定义为

其中是一个权衡参数。

在训练过程中，我们需要尽量减少预测（分类）损失，使类预测器能够尽可能多地正确预测标签。此外，我们还需要最大化对抗损失，使域鉴别器难以区分差异。因此，求解鞍点问题等价于以下极大极小优化问题：

按照[106]的说法，我们可以简单地添加一个特殊的梯度反转层（Gradient reversal layer，GRL）来求解上述优化问题，它是从后续层改变梯度的符号，并且是无参数的。

我们设计了一种基于UDTL的IFD模型，通过在损失函数中加入对抗思想来实现源域和目标域之间的特征转移，如图3-5所示。可以看到，我们使用三层FC二分类器作为我们的域鉴别器，与[106]相同。FC层的输出特性分别为1024（Fc1）、1024（Fc2）和2（Fc3）。dropout层的参数为p=0.5。

图 3‑5 基于DANN的UDTL的IFD

b）CDAN：虽然DANN可以有效地对齐两个域的分布，但仍然可能存在一些瓶颈。如[107]所述，DANN不能捕获复杂的多模态结构（Multimodal structure），并且难以确定域鉴别器。在此基础上，Long等人[107]提出了一种新的基于对抗性的UDTL模型CDAN来解决问题。为了简单介绍CDAN的主要思想，我们首先需要定义多线性映射，其表示多个随机向量的外部积。如果给定两个随机向量和，平均映射可以完全捕获数据内部复杂的多模态结构。此外，交叉协方差可以成功地对联合分布进行建模。因此，条件对抗损失的定义如下:

预测（分类）损失与DANN分类损失相同。

为了减小不确定预测的影响，熵判据用于定义分类器预测的不确定性，是对应真实标签的预测结果概率。根据entropy-aware权函数式（20）所示，那些难以迁移的样本在修正后的条件对抗损失式(21)中以较低的权重重新加权

(20)

(21)

我们通过在损失函数中嵌入条件对抗思想，设计了一个基于UDTL的IFD模型，实现了如图3-6所示的特征转移。最后的损失函数定义如下：

其中是一个权衡参数。

图 3‑6 基于CDAN的UDTL的IFD

2）在IFD中的应用：在[108-115]中，将特征提取器与标记好的源数据进行预训练，用于生成目标特征。然后，源域和目标域的特征用于训练来最大化域鉴别器损失，从而实现IFD的分布对齐。基于UDTL的IFD通过对抗训练过程引入了分类器差异[116-118]，即对源域和目标域使用单独的分类器。同时，对抗训练也与其他度量距离相结合，如L1对齐[119]、MMD[120]、MK-MMD[121]、JMMD[122]等，以更好地匹配IFD不同域之间的特征分布。Li等[123]分别使用MMD和域对抗训练训练的两种特征提取器和分类器；同时，进一步利用集成学习得到最终结果。Qin等人[124]提出了一种多尺度迁移投票机制（multiscale transfer voting mechanism，MSTVM）来改进经典的域适配模型，并通过MMD和域对抗训练验证后的模型进行训练。此外，Qin等人还提出了参数共享[125]和多尺度[126]的思想，以降低网络结构的复杂性，提取更多的域不变特征。通过嵌入度量距离的域对抗性训练（如MMD和CORAL）对模型进行训练。

[127-130]使用Wasserstein距离指导对抗训练，以校准IFD分布的差异。Yu等人[131]将条件对抗性DA与基于中心的鉴别损失相结合，实现了机车故障诊断的分布差异和特征鉴别。Li等人[132]提出了一种基于最小化联合分布域对抗损失的轴承故障诊断策略，该策略将伪标签信息嵌入到对抗训练过程中。此外，另一种基于对抗方法的策略包括采用GAN为目标域生成样本[133，134]。

注明

1、由于本文翻译篇幅过大，本篇到此结束，下一篇将介绍续标签不一致UDTL

2、若需引用本文的公式、专业术语等内容建议再细读原论文核实；若本文对您的论文idea有帮助，建议引用原论文～

参考文献

[1]Z. Zhao et al., "Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study," in IEEE Transactions on Instrumentation and Measurement, vol. 70, pp. 1-28, 2021, Art no. 3525828, doi: 10.1109/TIM.2021.3116309.

翻译：李正平、张泽明

编辑：李正平、张泽明

如需转载，请后台联系小编

说明：图片来源原论文，若有侵权，烦请后台联系处理

来源：故障诊断与python学习

System 旋转机械通用电场理论多尺度

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-06-22