论文题目:Digital twin-assisted fault diagnosis framework for rolling bearings under imbalanced data
论文期刊:Applied Soft Computing
论文日期:2025年
论文链接:
https://doi.org/10.1016/j.asoc.2024.112528
作者:
Zhen Ming , Baoping Tang *, Lei Deng , Qichao Yang , Qikang Li
机构:
The State Key Laboratory of Mechanical Transmission, Chongqing University, Chongqing 400030, China
实际工业场景中数据不平衡制约了深度学习故障诊断方法的应用。许多研究提出将动力学模型响应集成到训练过程中以解决数据不平衡问题,但动力学模型响应与实测数据之间存在显著的分布差异,导致诊断性能欠佳。针对上述问题,本研究提出了一种数据不平衡下数字孪生辅助的滚动轴承故障诊断框架,旨在通过信息传递和领域适应最小化动力学模型响应与实测数据之间的分布差异。首先,提出了数字孪生辅助的数据融合策略(Digital Twin-assisted Data Fusion Strategy, DTDFS),通过信号分解与虚实融合重构,实现从物理实体到动力学模型的信息传递,生成用于数据增强的数字孪生数据。其次,提出频域滤波子域适应网络(Frequency Filter Subdomain Adaptation Network, FFSAN)实现数字孪生数据与实测数据间的领域适应,构建频域滤波模块缓解DTDFS过程中的能量变化,采用子域自适应机制实现孪生数据与实测数据间的细粒度特征对齐。最后,通过试验台数据和工程实测数据进行验证,结果表明所提框架的诊断性能显著优于现有方法,这对于深度学习故障诊断方法在工业环境中的应用具有重要意义。
滚动轴承是机械传动系统中的关键部件[1,2],被广泛应用于航空航天、风力发电等重要行业。滚动轴承的健康状态对于设备运行的安全与稳定具有重大影响,一旦发生故障需要及时采取相应措施,否则可能造成经济损失和人员伤亡[3,4]。因此,滚动轴承故障诊断技术对于保证设备安全平稳运行、指导设备维修具有重要意义[5,6]。
深度学习[7]由于其强大的自适应特征提取能力被广泛应用于故障诊断领域[8–10]。然而,深度学习模型通常基于各类样本分布均衡的假设,这些条件在实际工业中难以满足[11]。实际工业场景中机械设备通常在正常状态下运行,故障状态的持续时间非常短,监测系统能采集到大量正常样本,但故障样本数量非常稀少。利用这种不平衡数据集训练深度学习模型,会导致网络倾向于识别数量庞大的正常样本,而忽视数量稀缺的故障样本[12]。因此,数据不平衡问题限制了深度学习故障诊断方法的实际应用。为解决这个问题,学者们展开了大量数据不平衡下故障诊断方法的研究,主要可分为两类:算法层面和数据层面。
算法层主要通过代价敏感学习(又称重加权)改变模型的训练过程,从而使模型适应不平衡数据集。具体来说是对损失函数中稀疏的训练样本分配较大权重,通过增强稀疏样本的学习成本,使模型可以得到稀疏样本的隐藏故障特征,从而实现数据不平衡下的故障诊断。Jia et al. [13]根据样本频率设计损失函数来解决数据不平衡下的故障诊断问题;Xu et al. [14]基于Focal Loss[15],根据数据不平衡率设计权重系数以进行数据不平衡下故障诊断;Zhao et al. [16]考虑到模型训练过程中 特征提取能力的变化,设计了自适应特征变化的权重系数,将训练轮次作为参数引入损失函数中;Hou et al.[17]通过对比学习增强与有效样本的相似性来更好地适应不平衡数据集。目前重加权在类不平衡下的故障诊断任务中取得了一定成效,但局限性如下:1) 严重不平衡的数据容易导致过拟合,降低分类精度;2) 重加权改变样本特征的频率,扭曲了原始样本的分布,不利于模型学习到原始数据的真实分布;3) 模型对于少数样本中 特征信息的依赖性较大,泛化能力不足。
数据层是通过生成对抗网络(Generative Adversarial Network, GAN)[18]补充故障样本,实现各类样本间的均衡,随后利用平衡的数据集对分类器进行训练,从而实现样本故障诊断。Li等[19]引入辅助分类对抗网络(Auxiliary Classifier GAN, ACGAN)框架提升分类与判别之间的兼容性,并基于Wasserstein距离设计损失函数防止模式崩溃;Liu等[20]设计变分自编码器对抗网络(Variational Auto Encoder GAN, VAEGAN)提升生成样本的质量;Wang et al. [21]在Conditional Generative Adversarial Network(CGAN)前置了变分自编码(Variational Auto Encoder, VAE)的Encoder用以学习真实数据的特征分布,再通过CGAN生成故障样本;Wang et al. [22]将注意力机制引入GAN架构中,生成更加真实的故障样本。以上方法在不平衡故障诊断任务中取得了一定成果,但也存在以下缺陷:1) GAN的训练过程极不稳定,容易出现模式崩溃[23–25];2) GAN使用不平衡数据集进行训练,仍然会导致生成的数据偏向于多数类,生成不良或者无效样本;3) 重构所得的平衡数据集的故障类样本的特征信息仍是不完备的。
综上所述,以上两类常用的不平衡故障诊断方法均有其局限性。近期,许多研究提出通过构建物理模型生成动力学响应以补充故障样本[26]。相比利用GAN网络进行故障样本生成,该类方法具有较高的可控性与稳定性,并且生成的样本具备完整故障信息,对稀缺的故障样本具有良好的补充作用,为解决实际工业中数据不平衡问题提供了新思路。Yu et al. [27]首次利用仿真数据补充训练样本实现滚动轴承智能诊断;Zhang et al.[28]结合动力学仿真数据与部分域适应实现轴承故障诊断;Liu et al.[29]结合仿真信号与子域适应实现样本缺失情况下的轴承故障诊断;Ma et al.[30]利用元迁移学习实现仿真信号向测量信号的迁移;Yan et al.[12]基于动力学仿真数据,通过子域适应和边缘正则化实现数据不平衡下的故障诊断;Liu et al.[31]建立并修正轴承有限元模型以补充训练样本。
以上基于仿真数据的样本扩充方法缓解了故障样本稀缺问题,为实现数据不平衡下的故障诊断提供参考。但以上方法局限性在于:1) 仅限于单部件级的物理实体,无法应用于齿轮箱等复杂装配体中;2) 仿真数据中缺少多部件耦合响应、噪声等成分,与实测数据间的分布差异较大,导致诊断效果不佳。为解决以上挑战,本文提出了一种数字孪生辅助的轴承不平衡样本故障诊断框架,该框架通过数字孪生辅助的数据融合策略得到大量与实测数据分布差异小的数字孪生数据,再通过频域滤波子域适应网络实现数字孪生数据与实测数据的域泛化。该框架不仅适用于轴承试验台,还适用于复杂装配体中的轴承故障诊断。本文的主要贡献在于:
1、提出了数字孪生辅助的滚动轴承不平衡故障诊断框架,通过信息传递和领域适应最小化动力学响应与实测数据之间的分布差异;
2、提出数字孪生辅助的数据融合策略(Digital Twin-assisted Data Fusion Strategy, DTDFS),实现从物理实体到动力学模型的信息传递,生成用于数据增强的数字孪生数据。DTDFS将源自实测数据的成分集成到动力学响应中,从而获得与实测数据具有较小分布差异的孪生数据。通过特征向量距离进一步筛选孪生数据,确保其作为补充扩充数据的适用性。
3、提出频域滤波子域适应网络(Frequency Filter Subdomain Adaptation Network, FFSAN),实现孪生数据与实测数据之间的领域适应。构建深度频域滤波器(Deep Frequency Filter, DFF)以自适应过滤频率成分,缓解DTDFS过程中的能量变化并增强网络的频域感知能力。采用子域适应实现数字孪生数据与实测数据之间的细粒度特征对齐。
本文主要安排如下:第2节定义所解决的问题,并构建滚动轴承动力学仿真模型;第3节介绍本文所提数字孪生辅助的不平衡故障诊断框架;第4节通过实验对所提框架进行验证;第5节为所提方法在风力发电机齿轮箱中的应用;第6节对本文进行总结。
3.1 问题定义
本文主要解决数据不平衡条件下的轴承故障诊断问题,本节对所执行的故障诊断任务进行定义,并提出一些基本假设。在实际工业中,正常运行数据
3.2 轴承动力学仿真模型
图1 滚动轴承的动力学模型
最终,将映射后的
4.1.2 数字孪生数据筛选
本文所提的数据融合策略是将大量仿真数据与少量实测数据进行融合,当不同相位的信号融合时,由于相位差的存在,部分分量可能会相互抵消,从而导致能量发生改变,使得孪生数据与原始信号间存在一定差异。为得到与原始信号分布差异较小的孪生数据,本文设计了一种数据筛选策略,通过均值、标准差、方根幅值、有效值、绝对峰峰值、偏度指标、峭度指标、峰值因子、裕度指标、波形指标、脉冲指标等[8]时域特征构造特征向量
如图5所示,该筛选方法在保证孪生数据与实测数据分布差异不大的前提下,尽可能地覆盖测量信号的分布范围,避免孪生数据过于聚焦,从而提升深度学习模型的泛化性。
4.2.1 深度频域滤波的特征提取器
经本文所提的数据融合策略后,虽然孪生数据在理论上具备了测量信号的各个成分,但融合过程中各成分的能量占比会发生改变,为缓解融合过程中能量改变对信号质量的影响,同时提升神经网络的全局感知能力,本文构建了深度频域滤波模块[33],对数据进行自适应频域滤波,从而调整信号的各个频率分量,进一步减小孪生与实测数据之间的差异性,提取主要故障特征。
最后,利用快速逆傅里叶算法将信号转换到时域空间中,以便下一步的特征提取。如图3所示,特征提取器
图7 子域自适应机制
通过本实验室搭建的航空轴承全寿命试验台数据验证所提方法有效性,该深沟球轴承被用于某型号飞行器的关键部位中,精确识别它的健康状况有助于保证飞机运行的安全性和稳定性。本文利用三组全寿命数据构成不平衡数据集,故障类型包括外圈故障、内圈故障和滚动体故障,取轴承全寿命数据中最后20组测量数据作为故障数据,最初14组测量数据混合作为正常数据,在每组数据中切割10个长度为2048的样本。测试集由每类200个样本构成,训练集中包括了200个正常样本,根据不平衡数据集的不同,故障样本分别有1,2,4个,具体如表 1所示。
表1 不平衡数据集的组成
图8 动态模型响应波形、真实的测量数据和数字孪生数据
为验证本文所提DTDFS的有效性,在每类故障中随机选取某个实测信号,其仿真、实测、孪生数据的时域波形如图8所示,从图中可以看出,仿真信号虽然具备轴承故障响应,但缺少了其它部件响应以及噪声等成分,导致其时域波形过于干净,与测量信号有较大分布差异。本文所提融合策略将实测信号中不代表轴承故障的成分引入仿真信号,通过虚实融合使得孪生数据既具备故障特征,又有测量信号中的其它成分,实现样本扩充的同时,最大程度保证了与测量信号的相似性。
图9 基于特征向量欧氏距离的孪生数据滤波
图10 动态响应、实测数据和孪生数据的概率密度函数
为了更进一步展示本文所提数字孪生辅助数据融合策略(Digital twin-assisted data fusion strategy, DTDFS)的有效性,图10分别展示了3类故障的测量数据与仿真数据、孪生数据的概率密度函数图,从图中可以明显看出,未经融合的动力学仿真数据与测量数据之间具有较大的分布差异,而使用本文所提DTDFS后,数据间分布差异明显减小。这是由于DTDFS将测量信号中轴承响应以外的成分引入到仿真信号中,构成虚实融合的数字孪生信号,最大程度地减小与测量数据之间的分布差异。较小的分布差异有助于深度学习模型实现域泛化,从而提高故障识别率。
为证明本文所提方法的诊断性能,以卷积神经网络(Convolutional Neural Network,CNN)为Baseline,选择四种常用的数据不平衡故障诊断方法作为对比实验,两种算法层方法Focal loss(Focal loss, FL)[15]和Class-Balanced Loss(Class-Balanced Loss, CBLoss)[37],两种数据层方法VAE-GAN[20]与ACGAN[19]。
本文所提FFSAN及对比方法的主要超参数设置如下:学习率为0.0001,样本批次为40,迭代次数为100,模型每迭代30次,学习率衰减90%。所以实验均在CPU为Inteli7-12700,内存为16GB,GPU为NVIDIA GeForce RTX 4070 Ti的PC机上实现,使用Pytorch平台进行编程,GPU加速训练。
表2 每种方法的诊断准确性
每种方法重复训练10次,其平均准确率及标准差如表2所示。在每个不平衡数据集中,所提方法均达到了最高诊断准确率与最低标准差。在故障样本严重稀缺的D1与D2中,本文所提方法具有最少8%的精度提升,这是由于所提方法将仿真与测量数据进行虚实融合,并对孪生数据进行筛选,从而有效扩充了故障样本,并且通过DFF提升网络的频域感知能力,利用子域自适应机制进一步对齐了孪生数据与实测数据之间的细粒度特征,从而达到最高诊断性能。在D3中,本文所提方法对比其它方法的优势较小,这是由于数据量相对充足时,数据驱动的不平衡故障诊断方法能够充分捕捉到样本中的故障信息,通过生成样本或者调整样本权重的策略,得到较高诊断精度。但当故障样本数量严重稀缺时,生成式网络ACGAN与VAE-GAN无法捕捉极少数故障样本的内在故障特征,从而无法生成高质量信号,导致分类精度偏低。通过样本权重调整的CBL和FL则由于特征提取器无法提取足量故障信息,导致诊断精度严重下降。
图11 消融实验中的测试精度
为了进一步明确DTDFS和FFSAN的有效性,在三个测试集中进行消融实验。其中DTDFS代表不使用本文所提的数据融合与筛选策略,训练集中仅使用动力学仿真数据与少量实测数据;FFSAN代表不使用本文所提的频域滤波子域适应网络,使用卷积神经网络完成诊断任务;DTDFS+FFSAN表示两者都不使用。以上每种方法重复10次,测试集平均准确率如图11所示,从图中可以看出,在样本数非常稀缺的D1中,采用DTDFS策略相比直接用动力学仿真数据测试精度提升了4%,而FFSAN提升了2%测试集精度。随着故障样本数的增多,FFSAN的作用逐渐增大,在D3中,FFSAN提升了7%精度,而DTDFS提升了5%。可能的原因是故障样本过少时,FFSAN无法充分提取测量样本的细粒度特征,导致精度提升较小,而DTDFS在样本数较小时仍具备较强的样本扩充能力,所以精度提升在三个不平衡数据集中都非常可观。
图12 风力涡轮机齿轮箱结构示意图
表3 不平衡数据集的组成
图13 动力学仿真数据、实测数据和数字孪生数据
图14 动力学仿真数据、实测数据和数字孪生数据的概率密度函数
图14展示了S2数据集使用DTDFS后仿真、实测与孪生数据的概率密度函数,经过数据分解与虚实融合,并使用特征向量欧式距离进行筛选,孪生数据与测量数据的分布差异达到了较小值。通过DTDFS可以在数据量较小的情况下有效实现数据扩充,这对基于深度学习的故障诊断方法具有重要帮助。
表4 每种方法的诊断准确性
图15 通过每种方法提取的特征分布的可视化
表5 每种方法的诊断评价指标
消融实验的设置与4.2节中相同,各数据集中的平均测试精度如表5所示。由于仿真数据只具备轴承的动力学特征,而风机测量数据是多部件耦合且具有较大的噪声干扰,在不使用DTDFS的前提下诊断精度非常低,由于仿真与测量数据的分布差异过大,难以通过FFSAN提升精度。但是,在使用了DTDFS后,相比只用动力学仿真数据进行样本补充,各个数据集分别提升了5%、11%和15%的精度。而且FFSAN在DTDFS的基础上能够实现领域泛化,也达到了明显精度提高,分别为3%、4%和5%。这充分证明本文所提方法通过DTDFS扩充了大量与测量数据分布差异较小的数字孪生数据,随后利用FFSAN进一步对齐融合与测量数据间的细粒度特征,在故障样本稀缺的前提下实现了风电齿轮箱轴承故障诊断,具有一定的实用价值和参考性。
编辑:曹希铭
校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、海洋、冯珽婷、陈宇航、陈莹洁、王金