首页/文章/ 详情

ASOC论文学习 | 一种数据不平衡下数字孪生辅助的滚动轴承故障诊断框架

3月前浏览1347

    本期给大家推荐由作者投稿的文章《一种数据不平衡下数字孪生辅助的滚动轴承故障诊断框架》。本文提出了一种数字孪生辅助的诊断模型,作者通过试验台数据工程实测数据进行验证,结果表明所提框架的诊断性能显著优于现有方法,这对于深度学习故障诊断方法在工业环境中的应用具有重要意义,适合于研究数字孪生和深度学习方法融合的学习者。(投稿方式点击这)

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:Digital twin-assisted fault diagnosis framework for rolling bearings under imbalanced data

    论文期刊:Applied Soft Computing

    论文日期:2025年

    论文链接:

    https://doi.org/10.1016/j.asoc.2024.112528

    作者:

    Zhen Ming , Baoping Tang *, Lei Deng , Qichao Yang , Qikang Li

    机构:

    The State Key Laboratory of Mechanical Transmission, Chongqing University, Chongqing 400030, China

    目录

    1 摘要
    2 引言
    预备知识
    3.1 问题定义
    3.2 轴承动力学仿真模型
    所提数字孪生辅助的不平衡故障诊断框架
    4.1 数字孪生辅助的数据融合策略 DTDFS
        4.1.1 数据分解与重构
        4.1.2 数字孪生数据筛选
    4.2 频域滤波子域适应网络FFSAN
        4.2.1 深度频域滤波的特征提取器
        4.2.2 子域自适应机制
        4.2.3 优化目标
    5 实验与结果分析
    5.1 航空轴承全寿命加速试验数据集
    5.2 结果分析
        5.2.1 数字孪生辅助的数据融合策略有效性分析
        5.2.2 诊断性能分析
    6 工程应用
    6.1 风电齿轮箱轴承数据集
    6.2 结果分析
        6.2.1 数字孪生辅助的数据融合策略有效性分析
        6.2.2 诊断性能分析
    7 总结

    1 摘要

    实际工业场景中数据不平衡制约了深度学习故障诊断方法的应用。许多研究提出将动力学模型响应集成到训练过程中以解决数据不平衡问题,但动力学模型响应与实测数据之间存在显著的分布差异,导致诊断性能欠佳。针对上述问题,本研究提出了一种数据不平衡下数字孪生辅助的滚动轴承故障诊断框架,旨在通过信息传递和领域适应最小化动力学模型响应与实测数据之间的分布差异。首先,提出了数字孪生辅助的数据融合策略Digital Twin-assisted Data Fusion Strategy, DTDFS),通过信号分解与虚实融合重构,实现从物理实体到动力学模型的信息传递,生成用于数据增强的数字孪生数据。其次,提出频域滤波子域适应网络Frequency Filter Subdomain Adaptation Network, FFSAN)实现数字孪生数据与实测数据间的领域适应,构建频域滤波模块缓解DTDFS过程中的能量变化,采用子域自适应机制实现孪生数据与实测数据间的细粒度特征对齐。最后,通过试验台数据和工程实测数据进行验证,结果表明所提框架的诊断性能显著优于现有方法,这对于深度学习故障诊断方法在工业环境中的应用具有重要意义。

    关键词:数字孪生、分布差异、数据融合、滚动轴承、不平衡故障诊断

    2 引言

    滚动轴承是机械传动系统中的关键部件[1,2],被广泛应用于航空航天、风力发电等重要行业。滚动轴承的健康状态对于设备运行的安全与稳定具有重大影响,一旦发生故障需要及时采取相应措施,否则可能造成经济损失和人员伤亡[3,4]。因此,滚动轴承故障诊断技术对于保证设备安全平稳运行、指导设备维修具有重要意义[5,6]。

    深度学习[7]由于其强大的自适应特征提取能力被广泛应用于故障诊断领域[8–10]。然而,深度学习模型通常基于各类样本分布均衡的假设,这些条件在实际工业中难以满足[11]。实际工业场景中机械设备通常在正常状态下运行,故障状态的持续时间非常短,监测系统能采集到大量正常样本,但故障样本数量非常稀少。利用这种不平衡数据集训练深度学习模型,会导致网络倾向于识别数量庞大的正常样本,而忽视数量稀缺的故障样本[12]。因此,数据不平衡问题限制了深度学习故障诊断方法的实际应用。为解决这个问题,学者们展开了大量数据不平衡下故障诊断方法的研究,主要可分为两类:算法层面数据层面

    算法层主要通过代价敏感学习(又称重加权)改变模型的训练过程,从而使模型适应不平衡数据集。具体来说是对损失函数中稀疏的训练样本分配较大权重,通过增强稀疏样本的学习成本,使模型可以得到稀疏样本的隐藏故障特征,从而实现数据不平衡下的故障诊断。Jia  et al. [13]根据样本频率设计损失函数来解决数据不平衡下的故障诊断问题;Xu  et al. [14]基于Focal Loss[15],根据数据不平衡率设计权重系数以进行数据不平衡下故障诊断;Zhao  et al. [16]考虑到模型训练过程中 特征提取能力的变化,设计了自适应特征变化的权重系数,将训练轮次作为参数引入损失函数中;Hou  et al.[17]通过对比学习增强与有效样本的相似性来更好地适应不平衡数据集。目前重加权在类不平衡下的故障诊断任务中取得了一定成效,但局限性如下:1) 严重不平衡的数据容易导致过拟合,降低分类精度;2) 重加权改变样本特征的频率,扭曲了原始样本的分布,不利于模型学习到原始数据的真实分布;3) 模型对于少数样本中 特征信息的依赖性较大,泛化能力不足。  

    数据层是通过生成对抗网络(Generative Adversarial Network, GAN)[18]补充故障样本,实现各类样本间的均衡,随后利用平衡的数据集对分类器进行训练,从而实现样本故障诊断。Li等[19]引入辅助分类对抗网络(Auxiliary Classifier GAN, ACGAN)框架提升分类与判别之间的兼容性,并基于Wasserstein距离设计损失函数防止模式崩溃;Liu等[20]设计变分自编码器对抗网络(Variational Auto Encoder GAN, VAEGAN)提升生成样本的质量;Wang et al. [21]在Conditional Generative Adversarial Network(CGAN)前置了变分自编码(Variational Auto Encoder, VAE)的Encoder用以学习真实数据的特征分布,再通过CGAN生成故障样本;Wang  et al. [22]将注意力机制引入GAN架构中,生成更加真实的故障样本。以上方法在不平衡故障诊断任务中取得了一定成果,但也存在以下缺陷:1) GAN的训练过程极不稳定,容易出现模式崩溃[23–25];2) GAN使用不平衡数据集进行训练,仍然会导致生成的数据偏向于多数类,生成不良或者无效样本;3) 重构所得的平衡数据集的故障类样本的特征信息仍是不完备的。

    综上所述,以上两类常用的不平衡故障诊断方法均有其局限性。近期,许多研究提出通过构建物理模型生成动力学响应以补充故障样本[26]。相比利用GAN网络进行故障样本生成,该类方法具有较高的可控性与稳定性,并且生成的样本具备完整故障信息,对稀缺的故障样本具有良好的补充作用,为解决实际工业中数据不平衡问题提供了新思路。Yu  et al. [27]首次利用仿真数据补充训练样本实现滚动轴承智能诊断;Zhang  et al.[28]结合动力学仿真数据与部分域适应实现轴承故障诊断;Liu  et al.[29]结合仿真信号与子域适应实现样本缺失情况下的轴承故障诊断;Ma  et al.[30]利用元迁移学习实现仿真信号向测量信号的迁移;Yan  et al.[12]基于动力学仿真数据,通过子域适应和边缘正则化实现数据不平衡下的故障诊断;Liu  et al.[31]建立并修正轴承有限元模型以补充训练样本。

    以上基于仿真数据的样本扩充方法缓解了故障样本稀缺问题,为实现数据不平衡下的故障诊断提供参考。但以上方法局限性在于:1) 仅限于单部件级的物理实体,无法应用于齿轮箱等复杂装配体中;2) 仿真数据中缺少多部件耦合响应、噪声等成分,与实测数据间的分布差异较大,导致诊断效果不佳。为解决以上挑战,本文提出了一种数字孪生辅助的轴承不平衡样本故障诊断框架,该框架通过数字孪生辅助的数据融合策略得到大量与实测数据分布差异小的数字孪生数据,再通过频域滤波子域适应网络实现数字孪生数据与实测数据的域泛化。该框架不仅适用于轴承试验台,还适用于复杂装配体中的轴承故障诊断。本文的主要贡献在于:

    1、提出了数字孪生辅助的滚动轴承不平衡故障诊断框架,通过信息传递和领域适应最小化动力学响应与实测数据之间的分布差异;

    2、提出数字孪生辅助的数据融合策略(Digital Twin-assisted Data Fusion Strategy, DTDFS),实现从物理实体到动力学模型的信息传递,生成用于数据增强的数字孪生数据。DTDFS将源自实测数据的成分集成到动力学响应中,从而获得与实测数据具有较小分布差异的孪生数据。通过特征向量距离进一步筛选孪生数据,确保其作为补充扩充数据的适用性。

    3、提出频域滤波子域适应网络(Frequency Filter Subdomain Adaptation Network, FFSAN),实现孪生数据与实测数据之间的领域适应。构建深度频域滤波器(Deep Frequency Filter, DFF)以自适应过滤频率成分,缓解DTDFS过程中的能量变化并增强网络的频域感知能力。采用子域适应实现数字孪生数据与实测数据之间的细粒度特征对齐。

    本文主要安排如下:第2节定义所解决的问题,并构建滚动轴承动力学仿真模型;第3节介绍本文所提数字孪生辅助的不平衡故障诊断框架;第4节通过实验对所提框架进行验证;第5节为所提方法在风力发电机齿轮箱中的应用;第6节对本文进行总结。

    3 预备知识

    3.1 问题定义

    本文主要解决数据不平衡条件下的轴承故障诊断问题,本节对所执行的故障诊断任务进行定义,并提出一些基本假设。在实际工业中,正常运行数据  相对容易获得,但故障数据  非常稀缺,故障数据中除了轴承响应,还包含了其它部件响应、噪声干扰以及测量误差等成分[26]:    其中,  代表实测故障数据,  代表轴承响应,  代表其它部件响应,  表示噪声,  表示测量误差。

    通过部件级动力学模型可以获取滚动轴承的仿真动态响应  ,但无法获取故障样本中的其它成分,这导致仿真与测量数据存在较大的分布差异,使得利用仿真数据扩充故障样本的诊断方法效果不佳。建立整机级别的仿真模型可以获取 和 ,但这类模型建立难度极高,且消耗巨大算力,不适合作为一种通用框架。本文的目标是通过分解少量实测信号 得到  和 ,再将它们与动力学仿真模型得到的大量故障样本 进行融合,从而得到大量的孪生数据 ,并依据 对 进行评价与筛选,在扩充样本的同时,最大程度地使得孪生数据 接近实测数据 。随后,再构建领域适应模型进一步对齐少量实测数据 和大量孪生数据  ,在样本有限的前提下实现滚动轴承的智能诊断。

    3.2 轴承动力学仿真模型

    图1 滚动轴承的动力学模型

    为得到滚动轴承动力学响应  ,扩充故障诊断中故障样本的数量,本文通过集中质量法建立滚动轴承动力学仿真模型获取仿真数据。如图1为本文构建的轴承仿真模型示意图,其动力学微分方程如下:   其中,  ,  ,  分别表示转轴与内圈的质量、轴承外圈质量以及轴承座质量,  ,  表示转轴在轴承处的阻尼,下标  和  分别代表水平与垂直方向,   ,  表示转轴在轴承处的阻尼,  表示轴承座与地面之间的阻尼,  ,  表示转轴的刚度,  , 表示外圈与轴承座之间的刚度,  表示外圈与地面之间的刚度,  是轴承所受载荷,  ,  是轴承所受的支撑力。
    由非线性赫兹接触理论,可以得到第  个滚子与滚道之间的接触压力  :   其中,    为赫兹接触刚度,    为载荷-变形指数,    为开关函数,    和    为内圈中心在    和    方向产生的初始位移,    为第    个滚子的角度,    为滚子与内外圈之间的初始间隙,    为损伤引起的额外间隙。
      在  和  方向的分量为:     
    滚动轴承所产生的支撑力为:   

    图2 滚动轴承动态模型中的故障建模
    滚动轴承故障建模如图2所示,当滚子通过损伤区域时,滚动体间隙  将发生变化,产生周期性冲击信号,冲击信号由损伤所在区域和损伤的形状决定。

    4 所提数字孪生辅助的不平衡故障诊断框架

    图3 所提出的框架总体流程
    本节介绍所提数字孪生辅助的不平衡故障诊断框架,如图3展示所提框架总体流程。
    首先,以滚动轴承为物理实体部分,构建动力学仿真模型作为虚拟部分。在物理实体中通常只能采集到极少量故障数据,但它们能最真实反映设备的故障响应。在虚拟体中能获得数量丰富的动力学仿真数据,但是由于仿真与现实的差距,导致其数据质量较低。
    随后,本文引入DTDFS作为虚拟部分与实体部分之间的连接。DTDFS通过分解实测数据,并将实测数据的成分与仿真数据进行融合,获得数字孪生数据。通过特征向量的距离对数字孪生数据进行筛选,从而得到大量且高质量的数字孪生数据,实现有效的数据扩充。该过程包含了物理部分、虚拟部分、数据和虚—实连接,符合数字孪生的概念。
    最后,将扩充后的数据集共同输入到本文所提的FFSAN中。FFSAN构建DFF,以缓解DTDFS过程中各成分的能量变化,并增强网络的频域感知能力,通过子域适应机制对齐测量信号与数字孪生信号的细粒度特征。最终,将训练好的网络用于轴承故障诊断中。本节将详细介绍所提框架的细节。
    4.1 数据分解与重构   
    4.1.1 数据分解与重构

    图4 数据分解与重构
    本文所提的信号融合与重构测量如图4所示。首先,利用变分经验模态分解(Variational Mode Decomposition, VMD)将少数测量信号分解为多个固有模态(Intrinsic Mode Functions,IMF)。VMD是一种基于优化方法的信号分解技术,它能够将复杂信号分解为多个IMF,揭示信号的局部振荡和周期性结构,被广泛应用于振动信号分析、特征提取等。VMD将信号定义为  个分量,保证各模态的估计带宽之和最小,约束条件为所有模态之和与原始信号相等:     通过引入拉格朗日乘子  与二次惩罚因子  ,将该问题转换为无约束变分问题: 
     
    采用交替方向乘子法(Alternate Direction Method of Multipliers, ADMM)迭代更新  ,  和  ,多次迭代后将测量信号分解为  个IMF。
    利用故障特征系数(Fault Feature Coefficient, FFC)[32]和包络谱分析,筛选出IMFs中代表滚动轴承故障响应的  。FFC计算方式如下:   
    随后,通过等值映射的方法,将仿真信号  与轴承响应  进行等值映射:   

    最终,将映射后的  、其它IMFs以及残差融合,得到虚实融合的数字孪生数据  。该方法将测量数据中除轴承响应以外的成分全部传递给了动力学仿真数据  ,最大程度地减小了仿真与测量数据之间的分布差异。

    4.1.2 数字孪生数据筛选

    本文所提的数据融合策略是将大量仿真数据与少量实测数据进行融合,当不同相位的信号融合时,由于相位差的存在,部分分量可能会相互抵消,从而导致能量发生改变,使得孪生数据与原始信号间存在一定差异。为得到与原始信号分布差异较小的孪生数据,本文设计了一种数据筛选策略,通过均值、标准差、方根幅值、有效值、绝对峰峰值、偏度指标、峭度指标、峰值因子、裕度指标、波形指标、脉冲指标等[8]时域特征构造特征向量  ,如下:

     

    利用特征向量之间的欧式距离筛选出特征分布与测量信号较小的孪生数据,欧式距离计算公式如下:     
    当实测故障样本为1时,选择欧式距离最近的孪生数据作为训练样本,从而保证将分布差异较大的信号滤除;当实测故障样本大于1时,筛选方法如所示。计算每两个实测样本之间欧式距离的平均值,设定阈值系数  ,得到筛选阈值   : 
     
    随后,计算孪生数据与每个实测信号的欧式距离,求取平均值,选用距离平均值小于   的孪生数据作为训练样本,且每个故障样本生成的孪生数据数目相等。筛选过程表示为:
     

    图5 孪生数据滤波方法

    如图5所示,该筛选方法在保证孪生数据与实测数据分布差异不大的前提下,尽可能地覆盖测量信号的分布范围,避免孪生数据过于聚焦,从而提升深度学习模型的泛化性。

    4.2 频域滤波子域适应网络FFSAN

    4.2.1 深度频域滤波的特征提取器

    经本文所提的数据融合策略后,虽然孪生数据在理论上具备了测量信号的各个成分,但融合过程中各成分的能量占比会发生改变,为缓解融合过程中能量改变对信号质量的影响,同时提升神经网络的全局感知能力,本文构建了深度频域滤波模块[33],对数据进行自适应频域滤波,从而调整信号的各个频率分量,进一步减小孪生与实测数据之间的差异性,提取主要故障特征。  

    图6 深度频率滤波器
    如图6所示,对于每个样本,深度频域滤波器先利用FFT得到它的频域信号  ,再通过卷积模块提取频域信号的主要特征,通过最大、平均池化层得到两个频域特征描述,将它们级联之后利用    函数得到自适应滤波器  ,过程如下式:   其中,  表示    函数,  表示1维卷积层,  为平均池化层,  为最大池化层。
    随后利用  对  进行自适应滤波操作,调整  中各个成分的含量,加强主要特征成分的同时抑制不利于泛化的成分:   其中,  表示逐个元素相乘。

    最后,利用快速逆傅里叶算法将信号转换到时域空间中,以便下一步的特征提取。如图3所示,特征提取器  中包含三个卷积块,以及两个DFF,特征提取器  将一维振动信号  投影至特征空间中,随后由分类器  将特征向量映射至类标签,分类器  由两个全连接层构成,利用交叉熵作为分类损失函数  。

    4.2.2 子域自适应机制

    图7 子域自适应机制  

    为进一步实现孪生数据向实测故障信号的域泛化,将孪生数据中提取的故障知识迁移至实测信号的故障诊断中,本文引入了子域自适应机制[34]对齐孪生与实测数据的细粒度特征,如图7所示。子域自适应机制主要基于局部最大均值差异(Local Maximum Mean Discrepancy,LMMD),该方法能够度量同一类别内子域之间的分布差异:  
     其中,  代表故障的类别数,  和  分别代表孪生样本  与实测样本  为类别  的权重,  和  表示孪生与实测样本的数量,  和 的值等于1, 表示特征提取器, 将特征向量映射至希尔伯特空间中,  是被用于特征映射的核函数。
    对于每个孪生与实测的故障样本  ,其标签向量可用one-hot向量  表示,  可被表示为:   通过最小化  ,即可实现每类故障下的孪生与测量样本的条件分布对齐。
    4.2.3 优化目标
    最终,本文所提FFSAN的总损失函数可被表示为:    其中,  和  表示特征提取器  与分类器  的参数,  和 表示所有训练样本及其标签,  表示孪生故障样本,  表示实测故障样本。是时间变化权重系数,用于调整  和 的比例,  可表示为:  
     其中,  为超参数,  表示模型训练的迭代数,  表示总迭代次数。该策略保证模型在训练前期聚焦于分类损失,后期聚焦于子域泛化。
    使用凯明初始化方法[35]对模型进行初始化,Adam优化器[36]对参数  和  进行训练。

    5 实验与结果分析

    5.1 航空轴承全寿命加速试验数据集

    通过本实验室搭建的航空轴承全寿命试验台数据验证所提方法有效性,该深沟球轴承被用于某型号飞行器的关键部位中,精确识别它的健康状况有助于保证飞机运行的安全性和稳定性。本文利用三组全寿命数据构成不平衡数据集,故障类型包括外圈故障、内圈故障和滚动体故障,取轴承全寿命数据中最后20组测量数据作为故障数据,最初14组测量数据混合作为正常数据,在每组数据中切割10个长度为2048的样本。测试集由每类200个样本构成,训练集中包括了200个正常样本,根据不平衡数据集的不同,故障样本分别有1,2,4个,具体如表 1所示。

    表1 不平衡数据集的组成  

    5.2 结果分析

    5.2.1 数字孪生辅助的数据融合策略有效性分析

    图8 动态模型响应波形、真实的测量数据和数字孪生数据

    为验证本文所提DTDFS的有效性,在每类故障中随机选取某个实测信号,其仿真、实测、孪生数据的时域波形如图8所示,从图中可以看出,仿真信号虽然具备轴承故障响应,但缺少了其它部件响应以及噪声等成分,导致其时域波形过于干净,与测量信号有较大分布差异。本文所提融合策略将实测信号中不代表轴承故障的成分引入仿真信号,通过虚实融合使得孪生数据既具备故障特征,又有测量信号中的其它成分,实现样本扩充的同时,最大程度保证了与测量信号的相似性。

    图9 基于特征向量欧氏距离的孪生数据滤波

    如图9表示了本文所提孪生数据筛选策略在D3中的结果,D3中每类故障有4个实测样本,每个实测样本对应200个孪生样本,横坐标表示孪生样本序号,纵坐标为该孪生样本与4个实测样本的特征向量平均欧式距离,红线是k取2时的筛选阈值。通过该策略,成功将分布差异较大的孪生样本滤除,从而减小孪生数据与测量数据的分布差异。完成筛选后,在大量合格的孪生样本中,每个实测样本选取同等数目的孪生样本构成训练样本。

    图10 动态响应、实测数据和孪生数据的概率密度函数  

    为了更进一步展示本文所提数字孪生辅助数据融合策略(Digital twin-assisted data fusion strategy, DTDFS)的有效性,图10分别展示了3类故障的测量数据与仿真数据、孪生数据的概率密度函数图,从图中可以明显看出,未经融合的动力学仿真数据与测量数据之间具有较大的分布差异,而使用本文所提DTDFS后,数据间分布差异明显减小。这是由于DTDFS将测量信号中轴承响应以外的成分引入到仿真信号中,构成虚实融合的数字孪生信号,最大程度地减小与测量数据之间的分布差异。较小的分布差异有助于深度学习模型实现域泛化,从而提高故障识别率。

    5.2.2 诊断性能分析

    为证明本文所提方法的诊断性能,以卷积神经网络(Convolutional Neural Network,CNN)为Baseline,选择四种常用的数据不平衡故障诊断方法作为对比实验,两种算法层方法Focal loss(Focal loss, FL)[15]和Class-Balanced Loss(Class-Balanced Loss, CBLoss)[37],两种数据层方法VAE-GAN[20]与ACGAN[19]。

    本文所提FFSAN及对比方法的主要超参数设置如下:学习率为0.0001,样本批次为40,迭代次数为100,模型每迭代30次,学习率衰减90%。所以实验均在CPU为Inteli7-12700,内存为16GB,GPU为NVIDIA GeForce RTX 4070 Ti的PC机上实现,使用Pytorch平台进行编程,GPU加速训练。

    表2 每种方法的诊断准确性  

    每种方法重复训练10次,其平均准确率及标准差如表2所示。在每个不平衡数据集中,所提方法均达到了最高诊断准确率与最低标准差。在故障样本严重稀缺的D1与D2中,本文所提方法具有最少8%的精度提升,这是由于所提方法将仿真与测量数据进行虚实融合,并对孪生数据进行筛选,从而有效扩充了故障样本,并且通过DFF提升网络的频域感知能力,利用子域自适应机制进一步对齐了孪生数据与实测数据之间的细粒度特征,从而达到最高诊断性能。在D3中,本文所提方法对比其它方法的优势较小,这是由于数据量相对充足时,数据驱动的不平衡故障诊断方法能够充分捕捉到样本中的故障信息,通过生成样本或者调整样本权重的策略,得到较高诊断精度。但当故障样本数量严重稀缺时,生成式网络ACGAN与VAE-GAN无法捕捉极少数故障样本的内在故障特征,从而无法生成高质量信号,导致分类精度偏低。通过样本权重调整的CBL和FL则由于特征提取器无法提取足量故障信息,导致诊断精度严重下降。

    图11 消融实验中的测试精度  

    为了进一步明确DTDFS和FFSAN的有效性,在三个测试集中进行消融实验。其中DTDFS代表不使用本文所提的数据融合与筛选策略,训练集中仅使用动力学仿真数据与少量实测数据;FFSAN代表不使用本文所提的频域滤波子域适应网络,使用卷积神经网络完成诊断任务;DTDFS+FFSAN表示两者都不使用。以上每种方法重复10次,测试集平均准确率如图11所示,从图中可以看出,在样本数非常稀缺的D1中,采用DTDFS策略相比直接用动力学仿真数据测试精度提升了4%,而FFSAN提升了2%测试集精度。随着故障样本数的增多,FFSAN的作用逐渐增大,在D3中,FFSAN提升了7%精度,而DTDFS提升了5%。可能的原因是故障样本过少时,FFSAN无法充分提取测量样本的细粒度特征,导致精度提升较小,而DTDFS在样本数较小时仍具备较强的样本扩充能力,所以精度提升在三个不平衡数据集中都非常可观。

    6 工程应用

    6.1 风电齿轮箱轴承数据集

    图12 风力涡轮机齿轮箱结构示意图

    表3 不平衡数据集的组成  

     

    选取中国某风场2MW风机的轴承为例,将本文所提方法进行工程应用。所选风电齿轮箱包括一级行星齿轮和两级平行齿轮,结构如图12所示。选择2轴的中间轴承数据对本文所提框架进行工程应用验证,通过风电机组安装的状态监测系统获取振动数据。振动信号每天采集一次,采样频率为25600Hz。根据两台风机的故障检测报告,选择故障发生前10至20天的数据作为故障数据,故障类型包括轴承内圈故障和外圈故障,混合选择两台风机平稳运行时的数据作为正常数据,每组数据切割成多个长度为4096的样本。测试集由每类160个样本构成,训练集中包括了160个正常样本,根据不平衡数据集的不同,故障样本分别有2,4,8个,具体如表3所示。

    6.2 结果分析

    6.2.1 数字孪生辅助的数据融合策略有效性分析

    图13 动力学仿真数据、实测数据和数字孪生数据  

    图14 动力学仿真数据、实测数据和数字孪生数据的概率密度函数  

    在每类故障中随机选择一个实测样本进行数据分解与融合,其仿真、测量、孪生数据的波形如图13所示,从图中可以看出,本文所提DTDFS将测量数据中不代表轴承故障的成分引入了仿真数据,通过虚实融合的方式,使得孪生数据在具备故障特征的同时,最大程度地提升其与测量样本的相似性,从而实现数据扩充。

    图14展示了S2数据集使用DTDFS后仿真、实测与孪生数据的概率密度函数,经过数据分解与虚实融合,并使用特征向量欧式距离进行筛选,孪生数据与测量数据的分布差异达到了较小值。通过DTDFS可以在数据量较小的情况下有效实现数据扩充,这对基于深度学习的故障诊断方法具有重要帮助。

    6.2.2 诊断性能分析

    表4 每种方法的诊断准确性

    图15 通过每种方法提取的特征分布的可视化

    超参数设置、对比方法以及训练策略与4.2节中一样,诊断结果如表4所示,本文所提方法在各数据集中取得了最高性能,相比常用的不平衡故障诊断方法,在S1、S2、S3中分别有至少8%、7%和5%的精度提升。由于风机的振动数据中有较大的噪声以及多部件耦合等因素的干扰,导致故障样本的识别难度较大。在这种情况下,生成式网络难以提取数据中隐含的多种特征,所以无法生成高质量样本,最终导致精度偏低。通过样本权重调整的策略在故障数据较丰富时取得了不错的效果,但当故障数据极少时,该方法难以通过极其有限的训练样本提取故障特征,从而导致效果不佳。图15展示了各方法在S2中所提特征的可视化分布,从图中可以看出本文所提方法的聚类效果最好,各类样本之间的决策边界非常清晰。这是由于本文通过DTDFS得到大量高质量数字孪生样本,有效实现了故障样本的扩充,通过FFSAN增强了网络的频域感知能力,有效实现了孪生与测量样本间的细粒度特征对齐,最终达到了最高的诊断性能。

    表5 每种方法的诊断评价指标

    消融实验的设置与4.2节中相同,各数据集中的平均测试精度如表5所示。由于仿真数据只具备轴承的动力学特征,而风机测量数据是多部件耦合且具有较大的噪声干扰,在不使用DTDFS的前提下诊断精度非常低,由于仿真与测量数据的分布差异过大,难以通过FFSAN提升精度。但是,在使用了DTDFS后,相比只用动力学仿真数据进行样本补充,各个数据集分别提升了5%、11%和15%的精度。而且FFSAN在DTDFS的基础上能够实现领域泛化,也达到了明显精度提高,分别为3%、4%和5%。这充分证明本文所提方法通过DTDFS扩充了大量与测量数据分布差异较小的数字孪生数据,随后利用FFSAN进一步对齐融合与测量数据间的细粒度特征,在故障样本稀缺的前提下实现了风电齿轮箱轴承故障诊断,具有一定的实用价值和参考性。

    6 结论

    数据不平衡问题限制了深度学习故障诊断方法在实际中的应用。本文提出了一种数字孪生辅助的不平衡故障诊断框架,该框架可以最小化动力学模型响应与实测数据之间的分布差异。首先,针对故障数据稀缺的问题,提出了数字孪生数据融合策略(DTDFS)。该策略将动力学模型响应与实测数据进行虚实融合以获得数字孪生数据,并通过基于欧氏距离的选择确保数据质量,从而有效实现数据增强。其次,为实现数字孪生数据向实测数据的领域适应,提出了频率滤波子域适应网络(FFSAN)。该网络构建深度频率滤波器以缓解DTDFS过程中的能量变化,引入子域适应实现孪生数据与实测数据之间的细粒度特征对齐。最后,在航空轴承和风电齿轮箱轴承的诊断结果表明,所提出的框架在极度不平衡数据条件下实现了高精度故障诊断。与常用的不平衡故障诊断方法相比,本文提出的框架表现出显著优势,尤其在严重数据不平衡的场景中。在航空轴承数据集中,在不平衡比为0.005、0.01和0.02时,本方法的准确率分别比现有方法至少提高7%、7%和2%。同样,在风电齿轮箱轴承数据集中,在不平衡比为0.0125、0.025和0.05时,本方法的准确率分别比现有方法至少提高8%、7%和5%。
    本文提出的框架为不平衡数据条件下的数据增强和领域适应提供了有价值的思路,对推进深度学习方法在故障诊断领域的工业应用具有重要意义。然而,该框架仅关注滚动轴承的已知故障。在工业场景中,可能会出现未知和非典型故障。未来工作将引入开集域泛化以考虑未知故障的可能性,使模型能够识别先前未知的故障类型。

    编辑:曹希铭

    校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、海洋、冯珽婷、陈宇航、陈莹洁、王金

    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除
    点击左下角阅读原文,即可在线阅读论文。


    来源:故障诊断与python学习
    Mechanical振动非线性通用航空航天海洋UM理论电机传动数字孪生试验人工智能装配DAP
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-01-08
    最近编辑:3月前
    故障诊断与python学习
    硕士 签名征集中
    获赞 77粉丝 102文章 184课程 0
    点赞
    收藏
    作者推荐

    武汉大学转子故障数据集(含不平衡、不对中、摩擦故障)

    本期给大家介绍武汉大学转子数据,含不平衡、不对中、摩擦故障。论文链接:通过点击最左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Feature extraction of rotor fault based on EEMD and curve code论文期刊:Measurement论文日期:2018论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0263224118311540?via%3Dihub数据链接:https://data.mendeley.com/datasets/p9bsmj4xwg/1作者:Dong Liu a,b, Zhihuai Xiao a,b,*, Xiao Hu a,b, Congxin Zhangc,*, 0.P. Malik da Key Laboratory of Hydraulic Machinery Transients, Ministry of Education, Wuhan University, Wuhan 430072, Chinab School of Power and Mechanical Engineering, Wuhan University, Wuhan 430072, China c Ofice of Scientifc Research and Development, Wuhan University, Wuhan 430072, Chinad Department of Electrical and Computer Engineering, University of Calgary, Calgary, AB T2N 1N4, Canada注:上述链接若打不开,文末有百度网盘链接。目录1 实验台简介 1.1 实验台简介 1.2 数据组成介绍2 频谱分析 2.1 数据读取 2.2 正常状态频谱分析 2.3 接触摩擦频谱分析 2.4 不平衡频谱分析 2.5 不对中频谱分析3 总结1 实验台简介1.1 实验台简介实验台如图1所示,包括一个转子实验室台架、一个速度控制器、一个前端处理器和一台计算机。转子实验室台架由一个额定电流为1.95A、最大输出功率为148W的直流电机驱动,由DH5600速度控制器控制。转子由位于两侧的轴承支架支撑,直径为10毫米,长度为850毫米,包括通过联轴器连接的两根轴和两个直径为75毫米的质量盘。台架上安装了一个用于接触摩擦实验和传感器安装的螺钉壳体。数据采集装置采用GTS3-TG系列测试模拟器。频率测量输入输出通道的时间分辨率为8ns。频率输出通道在50 Hz附近的频率分辨率为0.0002 Hz,误差不超过±0.0005 Hz。信号由固定在传感器支架上的两个涡流传感器采集,并传输到前端处理器进行放大、滤波,最后传输到计算机进行分析和存储。1.2 数据组成介绍本文收集了包含四种转子状态(正常、不平衡、不对中、摩擦)的振动信号。通过在质量盘边缘的螺纹孔中拧入2g质量块来模拟不平衡转子,通过改变联轴器处两个轴的相对位置来实现不对中情况,通过拧入摩擦螺钉并与旋转轴接触来实现接触摩擦故障。在信号采集过程中,转子速度设置为1200 r/min(转频20Hz),采样频率设置为2048 Hz,采样时长为1s。在不同转子状态(正常、接触摩擦、不平衡和偏心)下进行了45组测试,然后获得了总共180个样本。图1 转子实验台示意图2 频谱分析2.1 数据读取数据文件只有1个,文件名为180data_new_select_denoised.mat,是个mat类型文件,需要用python里scipy包里的loadmat函数进行读取。import numpy as npimport pandas as pdfrom scipy.io import loadmatimport matplotlib.pyplot as pltfrom matplotlib import rcParamsconfig = { "font.family": 'serif', # 衬线字体 "font.size": 15, # 相当于小四大小 "font.serif": ['SimHei'], # 宋体 "mathtext.fontset": 'stix', # matplotlib渲染数学字体时使用的字体,和Times New Roman差别不大 'axes.unicode_minus': False # 处理负号,即-号}rcParams.update(config) file_path = r'E:/03-公开数据集/武汉大学转子故障数据集/数据/180data_new_select_denoised.mat'data_arr = loadmat(file_path)print(data_arr)读取得到是一个字典类型的数据,可以看到振动数据在关键词"Y_wavedeno"所对应的值里。这里只提供了Y轴的位移数据,没有提供X轴的位移数据,因此不能够通过轴心轨迹图来进行分析。data_arr = data_dict['Y_wavedeno']print(data_arr.shape)输出结果为:(180, 2048)结合上述数据介绍,可知该数据数据结构为180×2048。其中每一行为1组数据,每组数据长度为2048,共180组数据。数据共包含正常、接触摩擦、不平衡和偏心故障。每个故障类型有45个数据。各个故障类型的振动特性分析见:常见旋转机械故障及振动特性分析(上) | 转子不平衡、不对中、转轴弯曲、转轴横向裂纹2.2 正常状态频谱分析##========绘制时域信号图========##def plt_time_domain(arr, fs=1600, ylabel='Amp(mg)', title='原始数据时域图', img_save_path=None, x_vline=None, y_hline=None): """ :fun: 绘制时域图模板 :param arr: 输入一维数组数据 :param fs: 采样频率 :param ylabel: y轴标签 :param title: 图标题 :return: None """ import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 显示中文 plt.rcParams['axes.unicode_minus'] = False # 显示负号 font = {'family': 'Times New Roman', 'size': '20', 'color': '0.5', 'weight': 'bold'} plt.figure(figsize=(12,4)) length = len(arr) t = np.linspace(0, length/fs, length) plt.plot(t, arr, c='g') plt.xlabel('t(s)') plt.ylabel(ylabel) plt.title(title) if x_vline: plt.vlines(x=x_vline, ymin=np.min(arr), ymax=np.max(arr), linestyle='--', colors='r') if y_hline: plt.hlines(y=0.2, xmin=np.min(t), xmax=np.max(t), linestyle=':', colors='y') #===保存图片====# if img_save_path: plt.savefig(img_save_path, dpi=500, bbox_inches = 'tight') plt.show()##========绘制频域信号图========##def plt_fft_img(arr, fs, ylabel='Amp(mg)', title='频域图', img_save_path=None, vline=None, hline=None, xlim=None): """ :fun: 绘制频域图模板 :param arr: 输入一维时域数组数据 :param fs: 采样频率 :param ylabel: y轴标签 :param title: 图标题 :return: None """ # 计算频域幅值 length = len(arr) t = np.linspace(0, length/fs, length) fft_result = np.fft.fft(arr) fft_freq= np.fft.fftfreq(len(arr), d=t[1]-t[0]) # FFT频率 fft_amp= 2*np.abs(fft_result)/len(t) # FFT幅值 # 绘制频域图 plt.figure(figsize=(12,4)) plt.title(title) plt.plot(fft_freq[0: int(len(t)/2)], fft_amp[0: int(len(t)/2)], label='Frequency Spectrum', color='b') plt.xlabel('频率 (Hz)') plt.ylabel('幅值') plt.legend() if vline: plt.vlines(x=vline, ymin=np.min(fft_amp), ymax=np.max(fft_amp), linestyle='--', colors='r') if hline: plt.hlines(y=hline, xmin=np.min(fft_freq), xmax=np.max(fft_freq), linestyle=':', colors='y') #===保存图片====# if img_save_path: plt.savefig(img_save_path, dpi=500, bbox_inches = 'tight') if xlim: # 图片横坐标是否设置xlim plt.xlim(0, xlim) plt.tight_layout() plt.show() return fft_freq, fft_ampdata = data_arr[0,:]plt_time_domain(data, fs=2048, title="正常")plt_fft_img(data, fs=2048, title="正常", vline=[20, 40, 60, 80])从频谱数据中,可知正常状态的转频基频及倍频非常明显且干净,倍频数量不多,边频的幅值非常小。2.3 接触摩擦频谱分析data = data_arr[45,:]plt_time_domain(data, fs=2048, title="摩擦")plt_fft_img(data, fs=2048, title="摩擦", vline=[20, 40, 60, 80])从频谱数据中,可知接触摩擦状态的转频基频占主要分量,倍频不明显,且存在很多毛刺的边频。2.4 不平衡频谱分析从频谱数据中,可知不平衡状态的转频基频占主要分量,倍频幅值很低,无明显的边频。2.5 不对中频谱分析data = data_arr[135,:]plt_time_domain(data, fs=2048, title="不对中")plt_fft_img(data, fs=2048, title="不对中", vline=[20, 40, 60, 80])从频谱数据,可知不对中状态的转频及倍频都很明显,且倍频数量很多,甚至八倍频也很明显。有些许毛刺边频。3 总结正常状态:基频及倍频非常明显且干净,倍频数量不多,边频的幅值非常小;摩擦故障:转频基频占主要分量,倍频不明显,且存在很多毛刺的边频;不平衡故障:转频基频占主要分量,倍频幅值很低,无明显的边频;不对中故障:转频及倍频都很明显,且倍频数量很多,甚至八倍频也很明显。有些许毛刺边频。免费获取方法数据集获取方法:后台回复“武汉大学转子数据集”大家还想要什么数据集,欢迎在留言区评论,小编尽可能的满足。编辑:李正平校核:陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除点击左下角阅读原文,即可在线阅读论文。来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈