首页/文章/ 详情

论文学习|第三篇-综述-无监督深度迁移学习在智能故障诊断中的应用: (进一步讨论、总结)

1年前浏览2002
     
         zhunqued;《》           

论文学习


非常尊重并感谢科研人员做出的辛勤贡献!若有侵权,烦请联系处理!

若有翻译不当之处,恳请批评指正!


本篇综述详细阐述了智能故障诊断中比较热门的无监督学习迁移学习方法(UDTL),包括定义及分类、已有学者工作、开源基准代码等。适合迁移学习方向初学者系统学习入门。


本篇将介绍第5部分:进一步讨论、总结

正文共: 6402字 24图

预计阅读时间: 17分钟

论文信息

论文题目:Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study

期刊、年份Transaction on instrument and measurement,2021

作者:Zhibin Zhao, Qiyang Zhang, Xiaolei Yu, Chuang Sun, Shibin Wang, Ruqiang Yan, Xuefeng Chen

机构The State Key Laboratory for Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China

目录

1.  引言

2.  背景和定义

   2.1 UDTL的定义

   2.2 基于UDTL的IFD分类

   2.3 基于UDTL的IFD动机

   2.4 主干网络的结构

3.  标签一致的UDTL(Label-consistent UDTL)

   3.1 基于网络的UDTL(Network-based UDTL)

   3.2 基于实例的UDTL(Instance-based UDTL)

   3.3 基于映射的UDTL(Mapping-based UDTL)

   3.4 基于对抗的UDTL(Adversarial-based UDTL)

4.  标签不一致的UDTL(Label-inconsistent UDTL)

   4.1 部分UDTL(Partial UDT)

   4.2 开放集UDTL(Open set UDTL)

   4.3 通用UDTL(Universal UDTL)

5.  多域UDTL

   5.1 多域适应(Multidomain Adaptation)

   5.2 域泛化(Domain Generalization)

6.  数据集

   6.1 公开数据集

   (1)凯斯西储大学数据集(Case Western Reserve University,CWRU)

    (2) 帕德博恩大学数据集(Paderborn University,PU)

    (3) 江南大学数据集(JiangNan University,JNU)

    (4) PHM2009年比赛数据集

    (5)东南大学数据集(Southeast University,SEU)

   6.2 数据分割

7. 对比研究

   7.1 训练细节

   7.2 标签一致UDTL

   7.3 标签不一致UDTL

8.  进一步讨论

   8.1 特征可迁移性

   8.2 主干网络和瓶颈层的影响

   8.3 负迁移

   8.4 物理先验(Physical priors)

   8.5 标签一致迁移

   8.6 多域迁移

   8.7 其它方面

9.  总结

摘要

近年来,智能故障诊断的发展很大程度上依赖于深度表征学习和大量的带标签数据。然而,机械设备通常在不同的工作环境下运行,或者目标任务与收集到的训练数据有不同的分布(域偏移问题)。此外,新收集的测试数据在目标域通常是无标签的,基于此提出基于无监督深度迁移学习(unsupervised deep transfer learning,UDTL)的智能故障诊断(Intelligent fault diagnosis,IFD)方法。虽然它已经取得了巨大的发展,但还没有建立一个标准的开放源代码框架和基于UDTL的IFD的对比研究。本文构建了一个新的分类方法,并根据不同的任务对基于UDTL的IFD进行了全面的综述。通过对一些典型方法和数据集的对比分析,揭示了基于UDTL的IFD中一些尚未被研究的开放性和本质问题,包括特征的可转移性、主干网络的影响、负迁移、物理先验等。为了强调基于UDTL的IFD的重要性和可重复性,将向研究界发布整个测试框架,以促进未来的研究。综上所述,发布的框架和对比研究可以作为开展基于UDTL的IFD新研究的扩展接口和基础成果。代码框架可以在https://github.com/ZhaoZhibin/UDTL上找到。

关键词:  对比研究, 智能故障诊断(IFD), 可重复性(Reproducibility), 分类和调查(Taxonomy and survey), 无监督深度迁移学习(UDTL)

Ⅷ 进一步讨论

A 特征可迁移性

嵌入迁移学习方法的DL模型之所以能够在机器视觉中取得突破性的性能,是因为许多研究表明并证明了DL模型与传统手工制作的特征相比能够从中学习更多的可迁移特征[181],[182]。尽管DL模型具有学习一般特征和可迁移特征的能力,但也存在从一般特征到特定特征的过渡,其可迁移性在最后一层显著下降[182]。因此,为了实现有效的迁移,需要研究如何微调DL模型或在训练过程中加入各种迁移学习策略。

然而,对于IFD来说,目前还没有关于DL模型中 特征可迁移性的研究,事实上,回答这个问题是基于UDTL的IFD最重要的基石。由于本文的目的是为了给出一个对比准确率和发布一个代码库,所以本文只假设bottleneck层是任务特定层(task-specificlayer),它的输出特性受到各种迁移学习策略的约束。因此,研究特征的可迁移性,回答如何学习可迁移特征这两个问题就显得十分必要和重要。为了使特征的可迁移性更加合理,本文建议学者们可能需要将神经元可视化,通过现有的可视化算法来分析学习到的特征[183],[184]。

B 主干网络和bottleneck层的影响

在计算机视觉领域,很多强大的CNN模型(也称为主干网络),如VGG[24]和ResNet[25],都可以在不关心模型选择的情况下进行扩展。学者们经常使用相同的主干网络来测试所提出的算法的性能,并且可以更加注重构建特定算法来对齐源域和目标域。

然而,已发表的基于UDTL的IFD的主干网络往往是不同的,这使得结果难以直接对比,不同主干网络的影响也从未被深入研究,而基于UDTL的算法的不同主干网络(本文献[111]使用干网)确实会影响CWRU频域输入结果。可以观察到,在频域输入的CWRU中,对于任务3,[111]中的CWRU频域输入准确度就差了很多。然而,本文使用的主干网络在时域输入下可以取得很好的效果,有些准确度甚至高于文献[111]。

为了更有力地说明,本文还使用了著名的主干网络ResNet18(本文修改ResNet18的结构以适应1-D输入)来测试SEU和PHM2009数据集,以解释主干网络的巨大影响。从图30与PHM2009的对比可以看出,ResNet18可以显著提高各算法的准确率。此外,从图31SEU的对比来看,时域输入的ResNet18实际上降低了准确率,而频域输入的ResNet18则显著提高了准确率。总之,不同的主干网络对不同的数据集和输入类型的表现是不同的

30  PHM2009对比   (a)时域输入(b)频域输入

31  SEU对比  (a)时域输入  (b)频域输入

因此,对于基于UDTL的方法来说寻找一个强大而合适的主干网络也非常重要,它可以为IFD学习更多可迁移特征(有时,选择一个更有效的主干网络甚至比使用更高级的算法更重要)。本文建议学者们应该先找到一个强有力的主干网络,然后用相同的主干网络来对比结果,以避免不公平的比较。

在上面的对比中,本文讨论了主干网络的影响。然而,本文设计的结构中,源域中的bottleneck层也与目标域中的bottleneck层共享参数。因此,有必要讨论bottleneck层在迁移学习过程中的影响。为了简单起见,本文只使用两种不同输入的CWRU来测试两种代表性的UDTL方法,包括MK-MMD和DANN。

本文使用TypeI表示原始模型Type II表示没有bottleneck层的模型Type III表示在开始迁移学习(迁移学习过程中只更新bottleneck层的参数)时主干网络参数固定的模型(其参数由源域数据通过预训练后获得)。

对比结果如图32所示。从对比结果可以观察到,对于时域输入,有和没有bottleneck层几乎是相同的。同样,对于频域输入,也很难判断哪一个更好。

32  与瓶颈层相关的三种条件的对比

(a)时域输入的MK-MMD  (b)频域输入的MK-MMD  (c)时域输入的DANN  (d)频域输入的DANN

因此,选择一个合适的网络(根据数据集、迁移学习方法、输入类型等)来学习更多可迁移的特征,对于基于UDTL的方法来说是非常重要的。此外,可以看出,在迁移学习过程中,当主干网络参数固定时,目标域的准确度会急剧下降,这意味着使用源域数据训练的主干不能直接迁移到目标域。

C 负迁移

正如第四节中讨论的,基于UDTL的IFD主要有四种场景,但所有使用5个数据集的实验都是关于不同工况之间的迁移。为了说明这些场景并不总是适合产生正迁移,本文使用PU数据集设计另一个迁移任务,考虑不同故障之间的迁移。每个任务由三个健康状况组成,表IX列出了详细信息。共有两种迁移学习设置。

IX 人为损坏轴承的信息

迁移结果如图33和附录A所示,称为PU-Types。从迁移结果可以观察到,每种方法对时域或频域输入都存在负迁移,这表明这种构建的任务可能不适用于迁移学习任务。事实上,也有一些已发表的论文设计迁移学习任务,解决将齿轮样本转移到轴承样本(这可能不是一个可靠的迁移任务)或将实验数据转移到真实数据(如果两台机器的结构不同,这也可能不是一个可靠的迁移任务)。因此,首先要弄清楚这个任务是否适合迁移学习,以及两个域是否有共同的特征

33  这五种方法与基准方法的准确度偏差 (F)表示频域输入  (T)表示时域输入

D 物理先验

在机器视觉和自然语言处理领域,新的迁移学习方法往往利用已有的知识或规律来提供有意义的解释,如注意力机制[185]和多模态结构[107]。然而,对于基于UDTL的IFD,许多学者只是引入在其他领域已经存在的方法来执行IFD任务,而较少关注数据背后的先验知识(缺乏使用物理系统中的特殊现象或规则)。因此,本文建议学者们可以借鉴迁移学习领域的核心思想(而不仅仅是使用现有的方法),并将物理系统的先验知识引入所提出的方法中,构建更有针对性、更合适、在工业应用中识别率更高的诊断模型。

E 标签一致的迁移

最近,一些学者考虑了标签不一致的情况,并提出了一些具体的方法来让模型适应这种情况(详细的参考文献可以在上述综述中找到)。然而,正如在标签不一致迁移的对比结果中所讨论的那样,所选择的方法往往面临过拟合的风险。

也就是说,虽然最好的平均准确率是可以接受的,但最后的平均准确率往往会有很大的下降。主要原因可能是模型不能有效地集中在共享类上导致不能实现较好地将域对齐

因此,需要更多关注标签不一致的场景,以实现有效的额外源类分离和目标域未知类检测。一种可能的解决方案是结合其他有效的开放集识别算法来更好地进行未知类检测[150],[186]。例如,利用源样本深度特征的EVT模型来检测未知类样本[150]。

F 多域迁移

大多数已发表的论文都是基于单一源域,但在实际应用中,有标签的数据可能来自多个源域。这些域通常遵循不同的分布,但是在多个源域之间存在共享或相关的特性。一个常见的步骤是通过多域适应(DG)来对齐共享特征。然而,如何平衡多源域的贡献仍然是一个有待解决的问题。例如,在对比分析中,本文简单地假设每个领域对迁移学习的贡献相等。因此,在多域迁移的过程中,需要精心设计合适的权值,并添加合适的权值。此外,为了更好地利用未标记源域中的一些数据,半监督多域学习[165]也值得关注。为了进一步提高准确度,最小化条件分布的差距可能是对齐共享特征的有效方法[163],[167]。

G 其他方面

虽然可以采集到不同工况下的大量数据,但某些工况下的故障数据仍然是稀缺的。由于大多数机器在正常状态下运行,类不平衡问题往往在实际应用中自然存在。因此,不平衡学习或few-shot学习结合迁移学习方法[187]也可能是更好地实现构建算法的一个重要方向。联邦迁移学习(Federated transfer learningFTL)[188]为特定行业提供了一种更安全、更可靠的方法。同时,基于迁移学习的特点,FTL参与者可以拥有自己的特征空间,而不需要所有参与者拥有或使用相同的特征数据,这使得FTL可以适用于更多的应用场景。FTL最初应用于IFD[189],需要更深入的研究。在建设、优化和决策过程中,不确定性量化在评估DL模型的安全性方面起着至关重要的作用。贝叶斯网络[190]和集成学习技术[191]是两种应用广泛的不确定性量化方法,其有效性已被生物信息学和自动驾驶汽车等不同类型的应用所验证。因此,不确定性作为一种辅助术语可以进一步纠正迁移学习过程中出现的一些不恰当的预测或结果。例如,在训练时明确估计预测的不确定性,以纠正语义分割UDTL的伪标记学习[192]

Ⅸ 总结

本文根据UDTL的不同任务,构建了一种新的分类方法,并对基于UDTL的IFD进行了全面的综述。使用了5个公开的数据集,从几个角度对基于UDTL的不同IFD方法进行对比分析。在系统地进行对比研究的基础上,给出了一些可能有助于进一步研究的结果。第一,CWRU和JNU的准确率均大于95%第二,不同方法的结果表明,联合分布假设和对抗性训练是提高准确率的有效方法第三,不同的输入类型在每个数据集上的表现通常不同,选择合适的输入类型对于提高准确性也很重要最后基于UDTL的IFD的稳定性和鲁棒性值得重视。总而言之,学者们在开发新模型之前提前考虑这些结果可能是有用的。同时,代码库发布在https://github.com/ ZhaoZhibin/UDTL上,并试图给出当前算法的基本性能,找出决定算法迁移性能的核心,希望能给未来的研究给予一些指导性建议。


         

注明

1、本篇论文分享到此结束;

2、若需引用本文的公式、专业术语等内容建议再细读原论文核实;若本文对您的论文idea有帮助,建议引用原论文~

参考文献

[1]Z. Zhao et al., "Applications of Unsupervised Deep Transfer Learning to Intelligent Fault Diagnosis: A Survey and Comparative Study," in IEEE Transactions on Instrumentation and Measurement, vol. 70, pp. 1-28, 2021, Art no. 3525828, doi: 10.1109/TIM.2021.3116309.

翻译:李正平

编辑:李正平

审核:张泽明、张勇

如需转载,请后台联系小编

说明:图片来源原论文,若有侵权,烦请后台联系处理

来源:故障诊断与python学习

System振动通用汽车理论自动驾驶机器视觉
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-06-22
最近编辑:1年前
故障诊断与python学习
硕士 签名征集中
获赞 64粉丝 66文章 140课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈