首页/文章/ 详情

中科院一区Top开源代码推荐|用于跨机器工况下故障诊断的深度判别迁移学习网络

8月前浏览9664

迁移学习是当前故障诊断领域的研究热点,然而针对其开源代码较少,小编整理搜集了一些开源代码与大家进行分享。本期分享的是用于跨机器工况条件下故障诊断的深度判别迁移学习网络,该论文是重庆大学钱泉博士于2023年发表在中科院一区Top期刊Mechanical Systems and Signal Processing上的,并提供有该作者原创的开源代码和北交何超博士复现的pytorch框架代码,因此这篇开源代码适合参考借鉴并在上面进行改进学习,适合具备一定的深度迁移学习基础知识的学习者。

该方法是用多个轴承数据进行跨设备的智能诊断,很贴合实际工程应用场景,非常值得阅读

1 论文基本信息

论文题目Deep discriminative transfer learning network for cross-machine fault diagnosis

论文期刊Mechanical Systems and Signal Processing

Doihttps://doi.org/10.1016/j.ymssp.2022.109884

论文时间2023年

作者Quan Qian, Yi Qin, Jun Luo, Yi Wang and Fei Wu

机构

State Key Laboratory of Mechanical Transmission, Chongqing University, Chongqing 400044, People’s Republic of China; College of Mechanical and Vehicle Engineering, Chongqing University, Chongqing 400044, People’s Republic of China

第一作者简介:钱泉,重庆大学机械工程专业博士研究生,中共党员,重庆大学在校生最高荣誉——学生年度人物获得者,长期从事于机械装备故障诊断与预测性维护,共发表国际知名SCI论文15篇,其中以一作发表中科院一区9篇、中科院二区1篇、IF>10高水平论文3篇,谷歌学术累计被引380余次,累计影响因子110+;已经申请发明专利14项,其中以学生一作授权中国专利4项、公开中国专利5项和英国专利1项。

2 摘要

目前,研究者已经提出了很多用于解决目标域和源域之间的分布对齐和知识迁移问题的领域自适应方法。然而,大多数研究方法只关注到边缘分布对齐,忽略了目标域和源域之间判别性特征的学习。因此,在某些案例中,这些方法仍然不能很好地满足故障诊断要求。为了提高分布一致性并且对齐两个域的边缘分布和条件分布,我们提出了一种改进联合分布自适应(Improved Joint Distribution Adaptation, IJDA)机制。在该方法中,我们将最大均值差异和相关对齐(Correlation Alignment, CORAL)方法相结合,作为一个新的分布差异度量方法用于提高分布的一致性。在此基础上,提出了一种改进的条件分布对齐机制。另外,我们提出了一种新的I-SoftMax损失,该损失相比原始SoftMax损失具有更强的分类能力,可以帮助网络学习到更多可分离的特征。我们利用IJDA机制和I-SoftMax损失,构建了深度判别迁移学习网络(Deep Discriminative Transfer Learning Network, DDTLN)来实现迁移故障诊断。基于没有标签的目标域样本,我们对六个跨机器诊断任务进行实验,证明该方法与其他典型的域自适应相比,具有更高的迁移故障诊断性能。

关键词判别特征学习,联合域自适应分布对齐,分类损失,故障迁移诊断

3 目录

1 论文基本信息
2 摘要
3 目录
4 引言
5 所提方法
5.1 DDTLN框架
5.2 改进联合分布自适应
5.3 I-SoftMax 损失函数
5.4 优化目标
6 实验
6.1 数据集描述
6.2 故障诊断任务和实施细节
6.3 I-Softmax损失的有效性分析
6.4 实验结果与讨论
6.5 进一步实验研究
7 总结
注:本文只选中原论文部分进行分享,若想拜读,请下载原论文进行细读。
小编能力有限,如有翻译不恰之处,请多多指正~

4 引言

由于工业大数据和测量技术的快速发展,前沿的故障诊断和预测算法引起了许多研究人员的关注。由于深度学习方法不依赖人为经验,因此基于深度学习的故障诊断方法成为近五年来的研究热点。然而,在实际工程领域中,获取足够的标签是极其困难的,这意味着深度学习模型的鲁棒性和泛化能力无法得到有效的保证。另外,深度学习的诊断模型要求训练数据集和测试集满足相同概率分布。然而,旋转机械由于工作载荷、传递路径、噪声干扰、故障程度甚至复杂的机械结构等因素的影响,必然会产生显著的分布差异。

为了解决上述问题,迁移学习(Transfer Learning, TL)被提出,首先它减少目标域和源域之间的分布差异,然后将从有标签的源域中学习到的知识共享到有少量标签或没标签的目标域。域自适应(Domain adaptation, DA)减小了目标域和源域分布的差距,并学习域不变特征。主流的深度DA机制可以分为基于对抗的机制和基于统计度量的机制。例如,研究者提出了深度域混淆(Deep Domain Confusion, DDC) [6]和深度自适应网络(Deep Adaptation Network, DAN)[7]来执行具有最大平均差异(Maximum Mean Discrepancy, MMD)距离度量的跨域图像分类任务。深度相关对齐(Deep correlation alignment, DCORAL) [8]也获得了比典型协方差方法更好的结果。受生成对抗网络(Generative Adversarial Network, GAN)的启发,Ganin等人[4]提出了一个域识别器来区分源域和目标域。然后,通过特征提取器和域混淆器之间的对抗学习来实现域混淆。在故障迁移诊断领域,Long等人[9]采用三层稀疏自动编码器网络和MMD度量对西储大学(Case Western Reserve University, CWRU)轴承数据集进行故障诊断。为了进一步增强域混淆能力,作者[11]通过结合对抗机制和距离度量来提高不同负载下的迁移诊断准确率。针对各种类型的迁移任务,基于DA的方法可以分为部分域自适应[12]、闭集域自适应[13]、开集域自适应[14]、通用域自适应[15]、源域和目标域中的多对一域自适应[16]以及源域和目标域中的一对多域自适应[17]。例如,为了执行轴承和齿轮的部分迁移诊断,Li等人[12]提出了一种新的权重选择对抗网络。他们构造了一个辅助神经网络来获得源域样本和目标域样本的实例权重的网络。Zhang等人[15]建立了一种深度混合加权DA机制来诊断轴承故障,其中源域标签空间和目标域标签空间之间的先验关系是未知的。Chai等人[16]提出了一种多域精化迁移学习网络,通过权值选择机制从多个域中获取目标域对应的共享类,打破了每个源域的标签空间与目标域相等的假设。

尽管上述基于DA的方法在多个领域和迁移任务中取得了很好的结果,但是他们忽视了两个重要因素。首先,他们仅仅关注目标域和源域边缘分布对齐(Marginal Distribution Alignment, MDA),而忽略了两域中对应类别的条件概率分布(Conditional Distribution Alignment, CDA)。Long等人[18]提出了包括MDA和CDA的联合分布,用来提高DA能力。然而,将类别条件概率分布近似替换条件概率分布一定程度影响了域混淆的能力。其次,分类迁移任务的目标是获得判别性且域不变特征。然而,几乎所有的DA模型主要考虑域不变的特征学习,同时忽略了判别特征学习。由于噪声干扰等因素的影响,故障传递函数比较杂乱,不利于故障的迁移诊断。因此,在DA中,我们更需要可区分的特征学习机制(判别性特征学习),也就是要求较小的类内距离和较大的类间距离。

在可区分特征学习中,相关工作可以被分为两个方面:损失函数的设计和网络架构。例如,Liu等人提出L-SoftMax和A-SoftMax通过将原始欧式距离特征空间映射到角空间来调整所需的边缘。然而,由于余弦函数的非单调性,优化是极其困难的。Wu等人设计了一种包括两个分类器的新网络架构,以通过最大分类器差异(Maximum Classifier Discrepancy, MCD)对抗机制获得更好的识别性能。

目前故障迁移诊断存在的关键问题是:(1)传统的联合分布自适应机制由于其机理近似性,不能较好地实现域混淆。(2)现有的DA诊断方法忽略了判别式特征学习。(3)现有的判别式特征学习方法存在优化困难或不稳定的问题。为了解决这些问题,提出了基于卷积神经网络(Convolutional Neural Network, CNN)的深度判别迁移学习网络(Deep Discriminative Transfer Learning Network, DDTLN)。DDTLN主要由改进的联合分布自适应(IJDA)和改进的Softmax(Improve SoftMax, I-Softmax)损失组成。在IJDA,CORAL和MMD相结合,作为一个新的分布差异度量(Distribution Discrepancy Metric, DDM),以提高域混淆。此外,本文还提出了一种改进的CDA机制,以实现更大程度的域混淆。为了获得更高的诊断精度和学习更多的可分离的功能,我们提出了I-Softmax。本文的主要贡献如下:
  • 考虑到现有CDA机制的近似性,我们提出了一种新的CDA机制,以更好地对齐两个域的真实的概率分布。改进后的CDA机制与 MDA机制相结合构成了IJDA机制。
  • 为了从均值和协方差两个方面更好地度量分布距离,设计了一种结合MMD和CORAL的改进度量,进一步减小了分布差异。
  • 为了学习更多可分离的故障特征,提出了一种新的具有灵活裕度的I-Softmax损失,使迁移框架在跨机器迁移诊断任务中具有更好的诊断能力。

5 所提方法

5.1 DDTLN框架

所提出的DDTLN的结构绘制在图1中。该框架包括五个一维卷积模块、一个全局平均池化(Global Average Pooling, GAP)层和两个全连接(Fully Connected, FC)层。每个“Cov1D”块由卷积层、批归一化(Batch Normalization, BN)层和最大池化层组成。GAP和BN可以加速网络收敛,减轻过拟合现象。

图1 DDTLN的网络结构;右箭头和左箭头分别表示前向传播和反向传播  

表1 DDTLN的详细参数

5.2 改进联合分布自适应

为了克服方程中CDA近似的负面影响,我们提出了一种改进的CDA机制来对齐两个域中的条件概率分布。使用贝叶斯定理,条件概率分布可以转换为类条件概率分布的形式,其表示为:   其中,类条件概率分布可以表示为  ,  表示类别先验分布。

MDA的目标是对齐边缘概率分布,改进的CDA机制被表示为:   
最终的IJDA机制可以定义为:   
在定义IJDA机制之后,我们需要找到一个分布距离度量来评估等式中的边际分布差异和条件分布差异。由于大量的随机噪声,所采集的旋转机械的振动信号近似地经受高斯分布,该高斯分布包括两个估计参数(均值和方差)。因此,为了更好地实现IJDA机制,同时进一步增强域混淆能力,我们将CORAL和MMD分布差异度量组合为新的度量DDM(A, B):    将设计的DDM度量带入IJDA机制,最终的IJDA损失函数可以重写为:    
5.3 I-SoftMax 损失函数
对于多分类任务,SoftMax函数由于其概率解释和简单性而广泛用于神经网络。但在某些情况下,它仍然不能满足类内紧性和类间可分性的要求。因此,设计了一种新的I-Softmax损失,以学习更多可分离的特征并提高迁移任务中的得分,其定义如下: 

 

其中  表示由特征提取器输出的特征向量,  和  分别表示与Xi的标签索引对应的第c个元素和其他元素。n表示特征向量的数目,并且和是控制决策边界的超参数。如果m = 1且k = 0,则I-SoftMax损失将等于原始SoftMax损失。

5.4 优化目标

所提出的DDTLN模型包括两个优化目标:无监督训练挖掘IJDA损失和有监督训练挖掘分类I-SoftMax损失。

5.4.1 IJDA损失

在所提出的IJDA损失中,我们提供了改进的联合域自适应机制。此外,根据信号的正态分布特性,将MMD和CORAL相结合,实现了域混淆。IJDA损失方程中,目标域样本的标签信息由伪标签近似获得。通过IJDA损失对DDTLN进行优化后,得到的特征具有域不变性。另外,DDTLN可以直接通过梯度反向传播和链式法则进行优化。最后,对应于网络参数  的IJDA损失梯度表示为: 

     以    和    为例,具体公式计算如下: 
     5.4.2 I-Softmax损失 
与原始SoftMax损失不同,I-SoftMax损失可以分离和压缩学习特征。这对于在多分类任务上获得比原始Softmax损失更高的准确率更有帮助。给定向量Z由I-SoftMax函数及其独热标签向量Y输出,I-SoftMax损失的梯度计算如下:     5.4.3  全局损失

通常,分类交叉熵损失被应用于有标签的源域以用于学习区分性特征。为了在TL任务中学习更多可分离的特征,通过伪标签将I-Softmax损失应用于目标域样本。因此,全部分类损失界定为:   其中  和  分别表示源域I-SoftMax损失和目标域I-SoftMax损失。  参数是权衡参数。通过整合所提出的IJDA损失和I-SoftMax损失,整个目标函数被定义为:   其中  表示权衡参数。然后,利用RMSProp优化器来更新DDTLN的可训练参数:   其中    表示学习率。最终,DDTLN将获得域不变和更可分离的特征。

6 实验

6.1 数据集描述

在本章节使用三个数据集的完成跨机器诊断任务来验证所提出DDTLN模型的有效性。我们将在下面对三个数据集的具体细节进行介绍:

(1)CWRU:CWRU数据集由Case Western Reserve University收集,在轴承诊断案例中被广泛认为是基准数据集。它的实验平台包括驱动电机,加载电机,一个扭矩传感器,一个功率计和几个测试轴承。总共模拟四种负载:0 hp,1 hp,2 hp和3 hp。在轴承测试过程中,采集了包括正常状态(NC)、内圈故障(IF)、滚珠故障(BF)和外圈故障(OF)四种故障类型的原始振动信号。加速度传感器的采样频率设定为12000 Hz。

(2)RTS:RTS数据集是根据RTS转子动力学试验台建立的,RTS转子动力学试验台是定制的实验平台。RTS数据集的故障类型类似地由NC、IF、BF和OF组成。该试验台的结构由伺服电机、联轴器、轴承、两个转子和传感器组成。原始振动信号由放置在右轴承座上的CMS无线传感器收集。模拟包括0 kN、1 kN、2 kN和3 kN载荷以收集足够的原始振动信号,采样频率设定为8 000 Hz。轴承的输入转速为1000 r/ min、2000 r/min和3000 r/min。

(3)SWJTU:SWJTU轴承数据集由西南交通大学收集。SWJTU数据集的测试台由三相电机、两个轴承、加速度计和加载系统组成。故障类型也与CWRU和RTS轴承数据集相同。试验台还可以采集不同负载下的原始信号。加速度计的采样频率为10000 Hz。输入转速设定为896 r/min。

6.2 故障诊断任务和实施细节

在本章节使用三个数据集的完成跨机器诊断任务来验证所提出DDTLN模型的有效性。我们将在下面对三个数据集的具体细节进行介绍:

表2 三个数据集的详细信息

源域和目标域中每个类别的样本数为1000,因此源域和目标域分别有4000个样本。训练数据集包括源域样本和目标域样本,而测试数据集仅包括目标域样本。考虑到实际中故障样本较少,采用滑动采样技术对原始数据进行分割,以增加故障样本,相邻样本之间存在重叠点。另外,每个样本有3072个数据点,以获得足够的故障信息。为了减少额外的计算量和专家意见的影响,本文直接使用原始振动样本作为故障诊断模型的输入。

通过使用上述三个方位数据集,构建了六个跨机器迁移任务来验证DDTLN的有效性:A → B,B → A,A → C,C → A,B → C和C → B。需要说明的是,这六项跨机器迁移任务全面包含了负荷和速度迁移。以A → B为例,“A”和“B”分别表示有标签的源域和没有标签的目标域。这些数据集的所有参数对于健康状况是相互不同的。这表明,当使用DDTLN精确诊断故障时,六个迁移任务是一个挑战。

考虑到伪标签不等于真实标签,在等式3中将参数γ设置为γ = λ =0.1。该设置能够减少DDTLN训练期间IJDA损失和目标域I-SoftMax损失的影响。在实验过程中,学习率被设置为0.001。epoch设置为300,batch_size设置为256。此外,DDTLN在Tensorflow平台上使用NVIDIA 1050Ti的GPU进行训练。

6.3 I-Softmax损失的有效性分析

图2 I-Softmax在不同裕度下的测试精度
I-SoftMax公式通过(k,m)来控制判决裕度。因此,这个对提高DDTLN的准确性和性能是非常重要的。然而,如果将I-Softmax损失设置为相对较小的值,它将失去分离和压缩学习特征的能力。相反,如果将其设置为相对较大的值,则DDTLN将不会收敛。因此,I-SoftMax损失的值必须首先通过实验确认。为了提高I-SoftMax的测试性能,我们将所有数据集都合并为一个数据集。然后,将数据集以7:3的比例划分为训练数据集和测试数据集。不同裕度的测试结果如图2所示。当m = 3时,与m的其他值相比,测试精度随k略有变化,并且当k = 16时达到最大值。因此,在随后的诊断实验中选择m = 3和k = 16。在这里我们借用传统的A-Softmax损失和L-Softmax损失用于对比验证I-Softmax的优越性。然而,它们无法收敛。因此,未列出其测试结果。同样,我们也将其与Soft-margin Softmax 对比,结果发现所提出的I-Softmax损失具有更灵活的裕度来控制决策边界,并且具有更高的诊断准确性。

图3 投影到单位球体上的学习特征的可视化

为了直观地展示从不同边缘学习的特征的区分能力,这些特征从最后一个FC层投影到单位球体中,如图3所示。可以观察到,I-Softmax导致更严格的决策边界和更有区别的分布。与原始Softmax和Soft-margin Softmax相比,I-Softmax显式地减小了类内距离,增大了类间距离。
6.4 实验结果与讨论
为了进一步测试所提出的DDTLN的有效性和优越性,使用几种众所周知的DA方法进行比较,例如DDC, DCORAL, DANN, MCD, FTNN和JDA。DDC, DCORAL, FTNN和JDA是著名的基于距离度量的DA模型,MCD和DANN是典型的基于对抗机制的DA模型。和DDTLN一样,MCD和JDA也可以实现细粒度的类分布对齐。为了验证所提出的IJDA机制的优点,IJDA,包括原始SoftMax损失和IJDA损失也测试了六个迁移任务。这些比较方法的骨干网络和训练规则与DDTLN相同。

表3 实验结果

六个跨机器迁移任务的实施,以证明诊断的准确性和鲁棒性的DDTLN。为了确保DDTLN的可靠性,每个方法在每个迁移任务中执行10次。十种方法的平均诊断准确度和相应的标准偏差。如下图所示,提出的IJDA机制的平均准确率比原IDA机制高6.37%,反映了IJDA机制的有效性。此外,为了证明所提出的DDM和I-Softmax的有效性,我们进行了消融实验。在不使用I-SoftMax的情况下,分别基于MMD、CORAL和DDM的IJDA(MMD)、IJDA(CORAL)和IJDA(DDM)被应用于故障迁移诊断。从表3中我们可以清楚地知道,所提出的度量DDM在IJDA机制中具有更好的性能。特别地,所提出的DDTLN的平均准确度超过90%,与其他方法相比,它是30.83%。应该注意,DDTLN在每个迁移任务中是最高的。总之,建议的DDTLN方法具有更好的诊断能力比典型的DA方法。

图4 通过五种DA模型获得的学习特征的t-SNE映射

为了直观地展示DDTLN的优势,t分布随机邻居嵌入(t-SNE)用于将学习的高维特征映射到二维空间。对于任务A → B,通过五个模型获得的t-SNE图如图4所示。所提出的DDTLN模型可以获得最小类内距离和最大类间距离。这主要是因为与现有的DA模型相比,DDTLN可以更好地对齐目标域和源域的边缘分布和条件分布。换句话说,DDTLN可以学习更多的类别区分和域不变特征。比较结果进一步证明了DDTLN模型比典型的DA方法具有更高的精度。

6.5 进一步实验研究

虽然DDTLN模型在三个轴承数据集上表现出了良好的诊断性能,但这些数据集中的故障是由人工加工产生的,其故障形状通常是规则的。由此可见,三个数据集中的故障影响可能是相似的。IMS公共数据集[33]是一个众所周知的开放数据集,由辛辛那提大学收集。试验中,径向载荷(6000 lbs)通过弹簧机构直接施加到轴和轴承上,采样率设置为20000 Hz,输入速度为2000 r/min。与A、B和C相比,IMS中的故障是在轴承寿命周期试验过程中自然产生的,并且其形状不规则。因此,IMS与A、B和C有很大的区别。为了进一步评估DDTLN的有效性和优越性,利用存在实际故障的IMS构建了其他6个跨机器迁移任务,包括IMS → A、A → IMS、IMS → B、B → IMS、IMS → C和C → IMS。类似地,使用IMS数据集中在四种健康条件(NC、IF、BF和OF)下获得的样本。

表4  IMS的实验结果

实验结果如表4,可以看出DDTLN的平均准确率明显优于其他诊断模型,其诊断准确率超过84%。但比表4低5.97%。这可能是因为IMS数据集中的断层是不规则的,并且与A、B和C中的断层有很大差异。比较结果再次验证了MWSAN模型在跨机器迁移诊断中具有较强的泛化能力。

7 总结

本文提出了一种新的迁移学习网络DDTLN来实现跨机器故障诊断。DDTLN主要由IJDA机制和I-Softmax损失组成。在IJDA中,构造了一个新的由MMD和CORAL组成的分布差异度量来增强域混淆。此外,提出了一种改进的CDA机制,以提高源域和目标域之间的分布匹配程度。与原有的Softmax算法相比,I-Softmax损失算法在学习更多可分离特征方面具有更强的能力。此外,它可以灵活地控制决策边界,可以方便地优化。通过IJDA机制和I-Softmax损失,DDTLN获得了更多可分离但域不变的特征。DDTLN在六个跨机器迁移任务中平均准确率超过90%。最后,实验结果也验证了DDTLN比已知的DA方法具有更强的诊断能力。

本研究存在DDTLN的可解释性和源域与目标域之间可移植性评估的局限性。在未来的工作中,我们将结合一些信号处理算法结合到迁移学习神经网络,以提高其可解释性,并探讨如何评估两个域之间的可移植性。

往期推荐

[1] 故障诊断开源代码推荐 | MCNN-LSTM,免费获取!

[2] 故障诊断开源代码推荐 | 轴承故障诊断迁移学习综述,免费获取!

[3] 信号处理基础之噪声与降噪(四) | 进击的EMD族降噪及python代码实现

[4] 信号处理基础之噪声与降噪(三) | EMD降噪与VMD降噪及python代码实现

[5] 信号处理基础 | 不懂卷积?看完这篇就够啦

[6]  风力发电机行星齿轮箱数据集 | 写论文再也不用担心没数据集啦!

[7] 航空发动机轴承数据集 | 写论文再也不用担心没数据集啦!


编辑:曹希铭

校核:钱泉、李正平、张泽明、张勇、王畅、陈凯歌、赵栓栓、董浩杰

该文资料(DDTLN)搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除



来源:故障诊断与python学习
MechanicalSystem振动旋转机械通用航空UGpythonUM电机控制试验数控
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-04-22
最近编辑:8月前
故障诊断与python学习
硕士 签名征集中
获赞 72粉丝 76文章 152课程 0
点赞
收藏
作者推荐

中科院一区Top开源代码推荐|基于单侧对齐策略下的类别缺失鲁棒域自适应故障诊断

1 论文基本信息论文题目:Missing-Class-Robust Domain Adaptation by Unilateral Alignment for Fault Diagnosis论文期刊:IEEE Transactions on Industrial ElectronicsDoi:https://ieeexplore.ieee.org/abstract/document/8949730论文时间:2020年作者:Qin Wang, Gabriel Michau, Olga Fink机构:Department Information Technology and Electrical Engineering, ETH Zürich, Zürich, Switzerland2 摘要领域自适应的目的是将源域中学习到的知识迁移到目标领域来提高模型性能。目前,领域对抗方法在减小源域和目标域之间的分布偏移方面取得了很好的成果。然而,这些方法均假设两个域之间的标签空间相同。这种假设对真实的应用造成了明显的限制,因为目标训练集可能不包含完整的类别。在本文中,我们证明了领域对抗方法的性能在训练过程中容易受到不完整目标标签空间的影响。为了克服这个问题,我们提出了一个两阶段的单侧对齐方法。所提出的方法利用源域的类间关系单独将目标域与源域对齐。所提出的方法在目标训练集缺失类别的故障诊断任务中进行了评估,证明了所提出的方法的有效性。关键词:故障诊断,领域自适应,特征对齐3 目录1 论文基本信息2 摘要3 目录4 引言5 相关工作5.1 领域自适应中的类别缺失5.2 领域自适应在故障诊断中的应用6 所提出的方法6.1 阶段一:只基于源域学习到类间关系的提取6.2 阶段二:单侧对抗域自适应6.3 总结7 实验7.1 数据集7.2 数据预处理7.3 模型实现7.4 实验结果8 总结注:本文只选中原论文部分进行分享,若想拜读,请下载原论文进行细读。小编能力有限,如有翻译不恰之处,请多多指正~4 引言近年来,深度学习方法在各种任务中均已经取得了显著的成果。然而,这些方法不仅需要大量的训练集,还需要标签来学习数据特征。特别是对标签的要求,这很昂贵甚至有时候是不可能获得的。因此,由于深度学习方法的这种数据密集型性质,限制了它们在实际应用中的效果。此外,如果训练集和测试集之间存在分布偏移,会导致模型很难泛化。无监督领域自适应技术提供了一种有前景的解决方案来缓解缺失标签和域偏移这两个挑战。领域自适应的目的是利用未标记的目标数据来提高模型在目标领域的泛化能力。它允许知识从源域迁移到不同但相关的目标域。最近,对抗域自适应方法以对抗方式对齐源域和目标域数据,并在潜在空间中加强领域不变特征,显着提高了领域自适应性能。这些无监督领域自适应方法通过跨域迁移已知知识来减小对目标域上的标签的需求。然而,它们通常假设源域数据和目标数据的标签空间是相同的。这种假设对实际应用过程中产生了限制,因为训练集可能不包含完整的类别集 合。在目标域中缺失类别的情况下,直接使用对抗域对齐可能会导致模型性能有很大不确定性。具有完整标签的源域和仅包含标签子集类别的目标训练集之间执行域对齐,会对目标训练集中缺失类别的模型性能产生负面影响。除此之外,直接领域对齐也会对类间关系产生负面影响。当领域自适应技术应用于不相同的标签空间时,在训练期间存在于目标域中的类别和缺失类别之间的对齐效果是不同的。这意味着对齐域的类间关系可能以不可预测的方式从源域中的原始类间关系扭曲。可以预期的是,当目标域中有更多的缺失类时,这种错位效应更大。为了减轻这种对齐的负面影响,更好地将学习到的类间关系从源域转移到目标域,我们建议将目标域单方面对齐源域,而不是将两者对齐到未知的中间空间。所提出的方法的最终目标是使对抗域自适应对目标域中的缺失类别具有鲁棒性。该方法更好地利用从源域中学习到的判别信息。由于我们无法了解目标域中某些类别的样本,因此只能通过使用从源域中了解到的类间关系来推断它们。我们认为,这种方法将提供一个更强大的表示为目标域。所提出的方法是主要包括两步:(1) 首先,只基于源域数据训练一个锚模型,并提取预训练的源特征。(2) 然后,通过最小化源域特征和预训练特征之间的距离,同时执行源域和目标域特征对齐,目标域分布被单向变换以匹配源域分布。综上所述,我们提出了一种解决目标域训练数据中缺失类的领域自适应问题的解决方案,同时仍然在目标域中的所有类上评估模型的性能。与以前的方法类似,我们以一种对抗性的方式对齐特征。然而,与以往的方法不同的是,我们将它们对齐源域侧。为了证明所提出的方法在实际应用中的适用性,我们评估了我们的方法在轴承数据集上的故障诊断任务的两个不同的操作条件之间迁移学习到的知识的任务。通过应用所提出的单侧对齐方法,我们能够提高轴承数据集的诊断性能。5 相关工作5.1 领域自适应中的类别缺失在领域自适应类别缺失的案例中,目标域类别是源域类别的子集。[24]建议使用重要性加权对抗网络来关注共同类别。[25]通过降低离群源域类别数据的权重来消除负迁移。[26]提出了跨域学习领域不变表示和渐进加权方案。但上述实验中,在测试过程没有评估缺失的目标类。这是与本文的关键区别。5.2 领域自适应在故障诊断中的应用在故障诊断问题中,当对工况进行调整时,漏类问题尤为严重。在不考虑缺失类别的背景下,领域自适应方法才刚刚被引入到故障诊断问题中。研究者已经提出了几种方法[34],[35]来处理故障诊断中的缺失类。然而,他们假设目标训练数据集只包含一个类(健康状况)。与我们的论文的主要区别在于,我们提出的方法能够处理不同数量的缺失类,这意味着我们提出的方法更通用,因为我们不假设目标训练数据都来自健康状况。6 所提出的方法目标域训练集中的缺失类别使得标准域自适应方法的直接应用变得困难。大多数方法背后的统一思想是将源域和目标域转换到共同的特征空间。这种一致性需要来自源域和目标域以及所有类别的充分支持。目标域信息的缺失可能导致比对的意外。潜在的问题之一是,对齐直观地改变了目标域中给定类别的分布,而对于目标域中缺失的类别没有给出指导。当前已知类别和缺失类别之间的这种不平衡的对齐行为可能会扭曲良好学习的源域类间关系,从而使对齐效果不佳甚至恶化模型性能。为了充分利用目标域中有限的健康数据,提高模型在所有类别上的性能,我们提出了一个两阶段的框架。我们首先学习源域中的分类模型,并提取源域数据的相关特征。然后,我们应用对抗域自适应技术,并对齐源域数据和目标域数据。我们通过确保单侧对齐来加强对齐,也就是说,迫使对齐的特征尽可能接近第一步中学习到的特征。我们在图2中可视化所提出的方法。图2 提出的两阶段单边对准方法注: (阶段1)我们使用单独的网络提取源域特征; (阶段2)我们通过添加一致性损失来单侧对齐分布。使用当前计算的源域特征及其对应的预训练特征来计算损失。 6.1 阶段一:只基于源域学习到类间关系的提取由于目标域中存在缺失的类别,因此只能从源域数据中学习类间关系。我们建议预先训练一个单独的神经网络来提取这种关系。我们假设我们拥有与第二阶段中使用的主网络相同的骨干架构:由 参数化的特征提取器 ,以及由 参数化的分类器 。因此,我们应用标准的有监督训练模型来学习这种关系。形式上,我们通过使用以下损失函数来训练这个单独的网络: 其中, 是softmax交叉熵损失函数,广泛用于有监督分类问题。网络仅使用源域数据 训练模型。在该阶段的训练之后,该阶段1网络被冻结。在阶段1的网络上成功训练之后,我们可以为每个源域训练样本 提取预训练的源域特征 。这些特征包含有意义的类间关系,因为简单的分类器能够对源域数据进行强有力的预测。然后,这些特征被用作阶段2的参考。6.2 阶段二:单侧对抗域自适应6.2.1 现有的对抗域对齐图5 所有的故障诊断实验中使用的主干网络 由于DANN在计算机视觉中的成功应用,以及其后来在工业应用中应用的启发。我们建议应用这种现成的领域自适应技术于缺失类别的迁移任务。如图5所示,我们的主要架构有三个组件:特征提取器 ,分类器 和鉴别器 。对齐是通过引入区分来自源域的健康特征和来自目标域的健康特征来实现的。同时,我们鼓励特征提取器 欺骗神经网络,使得特征不偏向它们开始的状态。这等价于下面的mini-max问题: 其中, 是源域数据, 是目标域数据, 是softmax交叉熵损失函数, 是域分类子任务的交叉熵损失。目标函数类似于生成对抗网络(Generative Adversarial Networks, GAN)。它包括两个部分:监督学习的分类损失和对齐的领域对抗损失。我们最小化分类损失,也就是特征提取器和分类器的参数。除了这种监督损失之外,我们还最大化了包括特征提取器参数的对抗性对齐损失,以便实现领域不变特征。我们进一步最小化对抗对齐损失。因此,训练神经网络以提供对原始特征的精确预测。通过在将特征提取器的梯度传递到域分类器之前反转它们,我们可以重新制定问题并减轻源域和目标域分布之间的H-发散。我们采用了这种优化技术来解决域自适应问题与缺失类别。上述使用来自DANN的梯度反转层(GRL)损失函数可以写为: 因此,它可以作为一个端到端的学习问题进行训练。6.2.2 使用单侧对齐作为附加损失DANN方法直接将完整的源域数据与具有缺失类别的目标域数据对齐。因此,预计会出现严重的不对齐。为了避免上述对齐的潜在负面影响,并在应用领域自适应技术的同时保留类间关系,我们建议将目标分布单侧对齐到源域分布的相应部分,而不是将两者对齐到共享的新空间。我们认为预训练的源域特征是所有类别的良好表示,因为可以实现类可分性。为了传递这种良好的表示,在阶段2中,使用额外的约束从而让对齐的源域特征尽可能接近预先训练的特征。如果对齐成功,则目标域特征也应该与预先训练的源域特征对齐。为了在使用部分领域对抗对齐时保持类间关系,我们使用预训练的源域特征 ,并迫使对齐的源域特征接近预训练的源域特征: 其中K是特征空间中的特征数量。我们将这个附加约束添加到上一段中描述的损失函数中。因此,总损失函数变为: 这种附加损失受到[42]中引入的一致性损失的启发,其中使用相似性距离来提高对象检测任务的边界框预测器的跨领域鲁棒性。然而,它在这里用于不同的目的,因为我们试图鼓励在一个方向上对齐并保持类间关系。我们使用 和 损失测试额外损失,发现它们之间没有显著差异。6.3 总结总而言之,除了通过DANN对齐源域和目标域分布之外,我们还提出了一个附加的约束条件,以使对齐朝着预训练的源域特征单向进行。单侧对齐的主要目标是保存从源域数据中学习到的类间关系,其中所有类别的知识都是可用的。7 实验在下面的部分中,我们将展示所提出的方法在不同的故障诊断任务上的优势。故障诊断是一个分类任务,我们的方法可以直接应用于这里。通常的标签由健康状态和故障状态组成。在本节中,我们故障诊断问题可以被理解为是目标训练集中80%的类别缺失时的无监督领域自适应。7.1 数据集我们在故障诊断数据集上进行实验:凯斯西储大学(Case Western Reserve University, CWRU)。我们尽可能地遵循[35]所使用的设定。因此,驱动端加速度计数据用作我们的输入。本文所涉及的标签列表如表2所示,即考虑了三种不同的故障类型以及一种健康状态。IF代表内圈故障,BF代表滚动体故障,OF代表外圈故障。每种故障类型包含三个子类型,故障直径为7,14,21mil。采样率为12kHz。当数据在12kHz时不可用时,我们会对其进行下采样,以确保所有实验中的采样率一致。表2 CWRU数据集的分类定义 CWRU数据集中有四个不同的负载{0,1,2,3}。在这四个不同的负载下进行跨域自适应。例如,任务0 → 1意味着工作负载0是带有标签训练样本的源域,工作负载1是我们想要提高模型性能的目标域。7.2 数据预处理图4 预处理步骤取自[29],[35] 对于CWRU数据集,我们遵循与[29],[35]相同的预处理步骤。如图4所示,首先,我们对每个原始记录进行下采样和截断。其次,我们将每个序列分为200个序列,每个序列包含1024个点。最后,使用快速傅立叶变换[46],每个序列被转换为512个傅立叶系数的向量。 7.3 模型实现图5 所有的故障诊断实验中使用的主干网络我们在图5中可视化了主干模型和我们的框架的细节。我们使用相同的架构[29],[35]来进行公平的比较。主干网络[35]由特征提取器和分类器组成。每个卷积层的卷积核长度为3,隐藏层大小为10。之后相应地添加丢弃层,丢弃率为0.5。然后,信号被平坦化并通过全连接层转换为大小为256的特征。分类器是一个大小为256的单隐藏层网络,使用交叉熵损失函数。我们只使用源域负载数据来训练这个主干网络作为我们的基线模型。为了实现我们的模型,还需要一个包含两个完全连接的隐藏层以及softmax交叉熵损失的隐藏层。主干网络和附加鉴别器的体系结构如图5所示。CWRU模型使用Sigmoid激活函数训练2000个Epoch。我们统计了5次运行的平均准确度和标准偏差。7.4 实验结果7.4.1 基于80%缺失类别的CWRU数据集的无监督领域自适应实验在这个实验中,目标训练数据集由所有类别的子集组成。需要再次强调,在该实验中,没有一个目标类别标签用于训练。我们考虑以下来自目标机器的未标记训练数据集: 进行缺失类别的实验。我们考虑k = 2进行演示。表3 基于80%缺失类别的CWRU数据集的无监督领域自适应实验结果 在这种新设置下的结果如表3所示,包含基准模型、DANN和具有我们的附加单侧约束的DANN。与基准模型相比,原始DANN并没有提供显著的改善。这可能是由于试图将所有类别的源域特征与仅包含20%类的目标域特征对齐的负面影响所造成的。这可能导致类内关系的扭曲。所提出的单侧对齐方法,解决了这种负面影响,并加强了对准效率。通过增加额外的一致性损失,相比原始的DANN,它提升了1.33%的准确率。7.4.2 讨论在案例研究中进行的故障诊断实验表明,当目标训练集中存在缺失类时,单侧对齐能够提高领域自适应问题的模型性能。我们观察到单侧对齐几乎不会出现损害性能的情况。在这种情况下,结果表明实际上不需要校准:基准模型已经提供了非常高的精度。我们的研究结果表明,在这种情况下,准确度的下降是非常小的,甚至微不足道,而在许多其他情况下,准确度的增益是显着的。总体而言,所提出方法的效果显着提升了。8 总结在本文中,我们证明了当目标训练数据集中存在缺失类别时,直接应用对抗域自适应技术会导致性能下降。为了克服这个问题,我们利用源域的类间关系提出了单侧对齐,这是一种简单而有效的训练策略。我们在故障诊断任务上的实验展示了所提出的领域自适应方法在工业应用中的潜力,其中缺失类别的问题对所应用的方法施加了显着的限制。发展所提出的模型在样本缺失情况下的性能是未来的发展方向之一。编辑:曹希铭校核:李正平、张泽明、张勇、王畅、陈凯歌、赵栓栓、董浩杰该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈