论文题目:Prior knowledge-informed multi-task dynamic learning for few-shot machinery fault diagnosis
论文期刊:Expert Systems With Applications
论文日期:2025年
作者:
张天赐,工学博士,中南大学机电工程学院讲师。2023年获西安交通大学工学博士学位,2022-2023年于新加坡国立大学访学。曾获陕西高等学校科学技术研究优秀成果一等奖等荣誉。研究方向为复杂装备(航空航天发动机、人形机器人等)的健康管理与智能运维,在IEEE TII、IEEE TIE、MSSP等国际著名学术期刊发表研究论文22篇(ESI高被引论文3篇),论文被引总次数1600+,单篇最高被引次数410+,H-index为16,公开授权国家发明专利1项。
在现代工业应用中,机器故障数据的缺乏使得少样本故障诊断变得尤为重要。如果能够在学习过程中融入先验知识,少量样本就足以训练出一个好的模型。本文提出了一种基于先验知识引导的多任务动态学习模型,用于少样本故障诊断,该模型包括一个用于故障识别的主任务和一个用于先验知识学习的辅助任务。所提出模型以信号特征指标作为先验知识的来源。之后,设计了一个动态的先验知识不一致性惩罚,该惩罚可以根据训练需求进行调整,用于辅助先验知识学习任务。辅助任务中学习到的知识通过专用的共享网络被主任务利用,从而减少了主任务对训练数据的需求。我们将所提出的框架应用于两个小样本故障诊断案例,并证明与现有最先进的方法相比,我们的解决方案在仅有20个故障训练样本的情况下,故障识别准确率可高达0.9803。
关键词:机器故障诊断;小样本学习;多任务学习;先验知识
复杂设备(如航空发动机)在发生故障时可能会遭受严重损坏。故障诊断是预测性健康管理(Prognostics Health Management, PHM)的核心组成部分,它在机器监测数据与其健康状态之间起到桥梁作用。在工业环境中,状态监测和故障诊断对于降低运营和维护成本以及提高设备可靠性至关重要。
振动分析是机器故障诊断中最广泛使用的技术之一。传统上,工程师使用小波变换等方法分析振动监测数据,并依赖专家知识来评估机器的健康状况。然而,这些方法严重依赖人工专业知识,给快速准确的数据分析带来了挑战。在过去十年中,机器学习的显著进展推动了深度神经网络在智能诊断模型开发中的广泛应用。这些模型能够分析大量监测数据以检测潜在的故障信息。尽管这些智能模型能够快速准确地处理数据,但它们的性能与训练数据集的丰富性直接相关,更全面的数据可以带来更好的结果。在工业环境中,机器故障是少见的,直接收集足够的故障数据非常困难。此外,在实验室中进行故障模拟实验以生成此类数据成本高昂。因此,用于训练智能模型的故障数据非常有限。因此,开发能够在有限故障数据下有效工作的故障诊断模型仍然是一个关键且实际的挑战。
学者们对少样本智能故障诊断领域进行了大量研究,目标是利用有限的训练样本开发诊断模型。这些研究可以分为三种主要方法:基于数据增强的方法、基于算法优化的方法和基于迁移学习的方法。第一种方法旨在通过数据增强技术提高泛化性能。例如,Zhang, Li et al.提出了一种基于深度生成对抗网络的方法来增强机器监测数据,从而在小样本情况下提高诊断模型的泛化能力。在 Zhang, Kong et al.研究中,提出了条件最小二乘生成对抗网络来生成故障样本用于模型训练。同样,其他数据增强模型(如变分自编码器)也被应用于有限样本的机器故障诊断。第二种方法专注于从有限的故障数据中提取更丰富的故障特征。例如,Wang et al利用基于逆残差块和协作自注意力的轻量级模型进行少样本故障诊断。在 Ye et al研究中,提出了一种残差卷积融合网络,用于从有限样本中提取轴承故障特征。在Zhanget al的研究中,采用了一种基于相似性的对比学习方法,用于在有限训练样本的情况下进行机器故障诊断。第三种方法涉及利用相关数据集转移诊断知识以解决少样本诊断任务。例如,Kim and Youn提出了一种可转移的孪生网络用于故障诊断,该网络可以通过知识转移提取小样本的故障特征。Liu et al.提出了一种基于深度领域自适应的迁移学习框架,用于在目标域中样本量较小的情况下进行轴承故障诊断。在 Dong et al.的研究中,使用了一种新的动态迁移学习模型来解决小样本的轴承故障诊断问题。然而,值得注意的是,基于数据增强的方法消耗大量的计算资源,给开发人员带来了挑战。此外,基于算法优化的方法可能由于数据有限,在复杂的假设集中难以找到最优解。此外,基于迁移学习的方法需要合适的迁移对象,在某些情况下存在负迁移的风险。
图1 先验知识引导的机器学习框架
近年来,机器学习领域对将先验知识整合到模型学习过程中的研究兴趣日益增加,这种范式被称为先验知识引导的机器学习(Prior Knowledge-informed Machine Learning, PK-ML)(von Rueden et al., 2021)。如图1所示,PK-ML与传统数据驱动的机器学习不同,它不仅由训练数据引导,还受到先验知识约束。这种整合允许先验知识限制模型的假设集,从而缩小其搜索空间。因此,模型只需要较少的训练数据就能够找到合适的最终假设。因此,PK-ML被认为是一种减少模型开发所需训练数据的有效方法。在机器故障诊断领域,学者们积累了大量的专业知识,包括故障特征、故障机理、诊断规则等。这些知识源于对故障机理的细致分析和丰富的工程经验,因此在应用于机器故障诊断任务时既可靠又稳定。因此,将这种领域知识整合到智能诊断模型的学习过程中具有重要意义。例如,Liu et al. (2025) 提出了一个带有知识引导的有限脉冲响应滤波核网络模型,用于小样本下的故障诊断。Lu et al. (2025) 应用了一种先验知识嵌入的卷积自编码器,用于小样本下的故障诊断。因此,通过利用先验知识,即使在有限的故障数据下,也有可能开发出令人满意的诊断模型。
多任务学习能够将从一个任务中学习到的知识转移到其他任务中,是整合先验知识的有效方法。在模型开发中,多任务学习通常涉及一个主任务和几个相关的辅助任务,开发者的先验知识可以嵌入辅助任务中。例如,在基于多任务学习的面部标志检测中,主任务是面部标志检测,而辅助任务包括性别识别和面部姿态识别等。这些辅助任务通过专家先验知识帮助模型学习与面部标志检测相关的面部特征。因此,通过辅助任务整合先验知识,主任务的性能得到了增强。
综上所述,将先验知识整合到诊断模型的学习过程中可以显著减少其对故障数据的依赖。同时,多任务学习已被证明是整合此类知识的有效策略。基于这些见解,本文提出了一种面向少样本机器故障诊断的先验知识引导的多任务动态学习网络。所提出的方法包括一个专注于故障识别的主任务和一个专门用于学习先验诊断知识的动态辅助任务。根据故障诊断领域的知识,我们认识到振动信号的特征指标(如峰度和偏度)在一定程度上可以反映机器的健康状态。因此,我们首先选择一系列信号特征指标来形成先验特征集,这些先验特征的有效性已在许多研究中得到验证。在辅助任务中,我们的网络旨在通过优化动态知识不一致性损失从输入数据中学习这些先验特征。这种动态损失可以根据主任务和辅助任务的实时训练进度进行调整。鉴于共享的网络结构,辅助任务所获得的知识也可供主任务使用,从而减轻主任务的学习负担并减少其对大量训练数据的需求。因此,主任务有望在有限的训练数据下实现准确的故障识别。
本文的贡献可以总结如下:
本文的其余部分安排如下:第2节详细描述了所提出的方法;第3节通过两个机械故障模拟实验验证了所提方法的优越性;第4节总结了整篇文章。
表1 使用的符号和其对应含义
首先,为了更清晰地表达,本节中使用的符号及其对应含义可以在表1中找到。
本研究专注于旋转机械的状态监测与故障诊断,特别是轴承和齿轮这些关键部件。目标是对这些被监测部件的故障位置和严重程度进行诊断,为机器的PHM提供重要的决策支持。
我们采用的是振动传感器和数据采集设备收集的机器振动信号。从轴承或齿轮收集到的振动信号被分割并标记,以创建数据集 ,其中, 表示第 个样本,包含 个振动数据点,而 是健康状态标签。考虑到样本数量有限的情况,我们将 限制为小于或等于20。利用该数据集,本研究旨在开发一种用于旋转机械的故障诊断方法,能够仅使用少量故障样本学习从振动信号到健康状态学习非线性映射 。
图2 所提方法的框架
在工业环境中,机器故障数据通常非常有限。现有的智能诊断模型,尤其是基于深度神经网络的模型,由于其众多参数,需要大量的故障数据进行训练。最近的研究表明,将先验知识整合到模型训练过程中可以显著减少模型对大量训练数据的需求。
为解决这些挑战,本研究提出了一种利用先验知识的多任务动态学习网络,用于在样本量有限的情况下进行机器故障诊断,如图2所示。主任务 专注于故障诊断,而辅助任务 专注于先验特征学习,其中 表示预定义的先验特征集。主任务 通过共享特征提取器利用 获得的知识,从而减少对大量训练数据的依赖。所提出方法的训练目标可以表示为:
其中, 是主任务 中的分类损失, 是其权重因子; 是辅助任务 中的知识不一致性损失, 是其权重因子。
表2 先前的10个特征指标
在故障诊断领域,专家们积累了大量的诊断知识,包括故障机理、故障特征、诊断规则和特征提取算法,这些构成了该领域的先验知识。故障特征包括信号特征指标(如峰度和偏度),这些指标可以反映机器的健康状况,它们通常基于对故障机理的严格分析和丰富的专家经验,并且其有效性已在实际应用中得到了广泛验证。
在本方法中,我们选择了十个信号指标来构成先验特征集 ,其中 是第 个先验指标,如表2所示。我们从训练数据中提取这十个先验特征,并使用零均值归一化进行标准化。
表3 特征提取器架构
在所提出的方法中,主任务 和辅助任务 共享特征提取器,这是该方法的骨干网络。特征提取器由卷积层、池化层和全连接层组成,其结构和参数设置如表3所示。 在特征提取器中,第u个卷积层的输出为:
其中, 是该层的特征向量, 和 分别是该层的卷积核和偏置。 表示第 个最大池化层的输出。 最大池化层的输出为:
其中, 和 分别表示窗口大小和步长。激活函数 定义为:
第u层全连接层的输出 为:
其中, 和 是该层的权重和偏置。
如公式(1)所示,所提出方法的训练目标包含两项:分类损失 旨在识别故障类型,而知识不一致性损失 旨在最小化预测特征与先验特征之间的差异,从而使模型能够从先验知识中学习。
在主任务中,学习到的特征被送入Softmax分类器进行分类。Softmax分类器的操作可以表示为:
其中, 是Softmax分类器的参数。 主任务中的分类损失是一个交叉熵损失,可以表示为:
在辅助任务中,学习到的特征通过一个全连接层输出一个10维向量 ,并通过优化均方误差来近似先验特征 。因此,知识不一致性损失 可以定义为:
算法1 所提出方法的训练过程
在多任务学习中,不同任务的损失值大小可能不同。如果直接将这些损失值相加以得到最终模型损失,其中一个任务可能会主导学习过程。因此,为每个任务的损失分配适当的权重至关重要。
本模型的目标是实现最优的分类准确率,通过在训练过程中动态调整辅助任务的权重 来实现。因此,我们直接将权重 设置为1,并调整辅助任务 的权重以优化主任务的性能。
通过初步实验,我们观察到在训练初期, 通常小于 ,辅助任务收敛速度更快,表明模型倾向于优先学习辅助任务。因此,为了协调两个任务的训练进度,我们设计了一个动态权重分配方案,如公式(9)所示。该方案根据实时损失值调整 ,防止模型在训练初期被辅助任务主导。此外,它还能在训练后期使主任务最优收敛,最终使模型达到最高的故障分类准确率。 动态权重 的计算公式如下:
其中, 表示训练的迭代次数。 最终,所提出方法的训练过程可以总结为算法1。
在本节中,我们进行了两个机械故障测试实验:Spectra Quest(SQ)轴承故障测试实验和TianXian(TX)轴承和齿轮故障测试实验。通过这两个实验数据集验证了所提出方法的有效性,并进行了讨论。具体来说,我们使用SQ数据验证了模型在小样本场景下对轴承的诊断性能,并分析了所提出方法的学习机理。此外,鉴于工业环境中无标签数据易于获取,我们还探索了所提出方法利用无标签监测数据的潜力,并使用TX数据进行验证。 验证过程在一台64位Windows 10操作系统、Intel Core i3-4170 CPU @ 3.70 GHz的计算机上完成。编程语言为Python 3.6.12,运行环境为TensorFlow 1.13.1。 对于所有实验,所提出方法使用的优化器为Adam,学习率为0.0005。每次训练包含100个迭代周期。此外,每个实验重复10次,取平均结果用于分析。
为了验证所提出方法的优越性,我们选择了六种方法进行对比实验,包括与所提出方法相关的两种方法和五种最先进的诊断方法。
1:PFS:使用表2中的十个信号特征指标作为输入,并通过Softmax分类器直接输出分类结果。
2:DCNN:使用深度卷积神经网络处理数据并输出健康标签。DCNN的结构、超参数和训练设置与主任务相同。
3:KEAE:Chen et al提出了一种知识嵌入自编码器网络,用于小样本下的故障诊断,同样利用领域知识减少了训练数据量。
4:R-Net:Yang et al构建了一种具有宽卷积核的残差卷积神经网络,并将其应用于有限故障样本下的机器故障诊断。
5:S-Net:Wen et al提出了一种具有少样本学习能力的孪生神经网络,用于小样本下的机器故障诊断。
6:FCGAN:Zhang et al使用基于生成对抗网络的信号增强模型,可以提高小样本条件下的诊断模型泛化能力。
7:PKCA:Lu et al提出了一种先验知识嵌入的卷积自编码器,用于小样本下的轴承故障诊断。
为了更全面地评估所提出方法的有效性,我们采用了三种常见的评估标准。准确率(Accuracy)反映了模型正确预测的样本数占总样本数的比例,公式如下:
其中,TP表示实际为正且预测为正的样本数,FP表示实际为负且预测为负的样本数,FN表示实际为负但预测为正的样本数,TN表示实际为正但预测为负的样本数。
F1分数(F1-Score)综合考虑了模型正确预测的故障样本比例,公式如下:
曲线下面积(AUC)从概率角度评估模型的分类性能,更高的AUC分数表明模型输出的概率更准确。公式如下:
其中, 和 分别表示正样本和负样本的数量,表示第个正样本的排名索引。
图3 SQ轴承故障实验台,(a)实验台全貌,(b)被测故障轴承
SQ机械故障测试实验在SQ测试台上进行。如图3(a)所示,SQ测试台包含一个感应电机、转子、磁粉制动器、数据记录器和振动传感器。根据Chen et al的研究,约40%的电机故障与轴承相关。因此,我们选择了电机的驱动端轴承进行测试,该轴承为NSK6203型号。使用灵敏度为50 mV/g的振动加速度传感器收集振动信号。在实验中,电机的转速设置为40 Hz,数据记录器的采样频率为25.6 kHz。 如图3(b)所示,在轴承的内圈和外圈上加工出六个单点损伤,以模拟不同的轴承故障。这六种故障分别为:轻微内圈故障(IF-1)、中等内圈故障(IF-2)、严重内圈故障(IF-3)、轻微外圈故障(OF-1)、中等外圈故障(OF-2)和严重外圈故障(OF-3)。此外,还包含一个正常状态(NC-0)的轴承用于测试。因此,在SQ故障测试实验中,共收集了七种不同健康状态的振动信号。我们选择1024个连续数据点作为一个数据样本。每种健康状态的信号被划分为1125个数据样本,这些数据样本是模型训练和测试的数据来源。
图4 不同权重值下的故障分类准确率结果
首先,我们希望验证所提出方法中动态权重 的有效性。由于固定权重是多任务学习中常见的选择,我们选择了从0.5到4.0的八个固定值作为辅助任务的权重。这一范围的设置基于预实验结果,我们发现在此范围内方法能够实现相对较高的准确率。实验中,从每个类别中选择10个数据样本作为训练样本,其余样本作为测试样本。方法的故障分类结果如图4所示。
图5 不同权重值下的损失变化情况
当使用固定权重时,方法在权重为2时能够实现最高的准确率0.9038。然而,当应用动态权重时,准确率提升至0.9300。因此,从准确率的角度来看,动态权重表现更好。此外,我们记录了训练过程中损失值和 的变化,结果如图5所示。
在图5(a)中,当使用固定权重时,主任务和辅助任务的收敛速度存在显著差异,其中辅助任务的收敛速度比主任务更快。这种差异可能导致模型更倾向于辅助任务,从而无法获得最佳的诊断性能。出现这种现象的原因在于两个任务的学习难度不同,而固定权重无法平衡实时训练进度。在图5(b)中,动态权重能够有效地平衡两个任务的学习速度,使两个任务几乎同时收敛。因此,所提出的方法能够充分利用辅助任务中学到的知识,并最终在主任务中实现最高的诊断准确率。
图6 训练过程中的损失值及分类准确率变化
图6展示了训练过程中模型的训练损失和分类准确率的变化。可以看到,随着训练损失逐渐收敛,模型的分类准确率也逐渐达到峰值并保持稳定。
表4 基于SQ实验数据的分类准确率结果
表5 基于SQ实验数据的F1-Score结果
表6 基于SQ实验数据的AUC结果
所提出的方法旨在解决工业场景中的少样本故障诊断问题。受Zhang et al的启发,我们将小样本定义为每个类别不超过20个训练样本。与SQ实验数据集中每个类别的总样本数(1125)相比,这一阈值被认为是很小的。在实验中,我们从每个类别中分别选择了1、5、10、15和20个样本作为训练样本,其余样本用于测试。所提出方法的分类准确率结果以及六种对比方法的结果如表4所示。分类F1分数如表5所示。分类AUC结果如表6所示。
上述表格中的结果可以总结如下:
(1)先验特征的有效性:即使只有一个训练样本,PFS方法的准确率也能达到0.7061,显著高于其他四种对比方法。这表明先验特征在少样本故障识别中的有效性。PFS通过使用手动计算的信号特征而不是神经网络提取的特征,避免了小样本条件下参数过拟合的问题。
(2)多任务学习的有效性:所提出的方法在所有任务中均优于DCNN。鉴于DCNN与所提出方法的主任务拥有相同的网络结构和参数,这些结果表明多任务学习框架在小样本条件下提升了模型的诊断性能。
(3)相较于最先进方法的优越性:与五种最先进的方法相比,所提出的方法在所有场景中均展现出更高的性能。这表明所提出的方法可能更擅长解决实际工业环境中的少样本故障诊断难题。此外,从上述三个表格中呈现的结果来看,所提出方法的预测结果通常具有更小的标准差,表明该方法在有限训练样本条件下具有更强的鲁棒性。
图7 10个训练样本下的故障特征提取结果
此外,我们利用t-SNE技术将所提出方法提取的故障特征降维至二维并进行可视化,结果如图7所示。图7中的故障特征提取基于10个训练样本。可以看到,即使在训练样本较少的情况下,所提出的方法仍能够从大量的轴承监测数据中提取出清晰可区分的故障特征。
在工业环境中,从机器上收集的监测信号通常包含大量的背景噪声,这些噪声可能会掩盖故障信息,阻碍诊断方法对故障的准确识别。因此,对噪声的鲁棒性是评估诊断方法在工业环境中实际应用能力的关键因素。
图8 不同噪声水平下的外圈轻微故障信号
图9 不同噪声水平下的故障诊断准确率结果
为了模拟真实场景中噪声污染的监测信号,我们在监测信号中人为地添加了不同水平的高斯噪声。采用信噪比(SNR)来量化噪声强度,较低的SNR值表示更高的噪声强度。在实验中,我们将监测信号的SNR从20 dB逐步调整到0 dB。为了说明,图8展示了在不同SNR条件下OF-1故障类别的监测信号。此外,训练样本的数量设置为20。所提出方法与其他方法的诊断结果如图9所示。
如图9所示,随着噪声强度的增加,所有方法的诊断准确率显著下降。然而,所提出的方法在几乎所有任务中均实现了最高的诊断准确率。即使在0dB时,噪声强度与原始信号相当,所提出的方法仍保持了0.7698的准确率。这表明,与其他方法相比,所提出的方法在处理工业环境中的含噪监测信号方面更为有效,从而能够满足工程应用需求。
表7 模型计算负担分析
鉴于工业环境中计算资源通常有限,计算负担已成为评估诊断模型的另一项关键指标。因此,表7列出了每种方法的训练时间、测试时间、参数数量和浮点运算次数(FLOPs)。需要注意的是,表7中的结果是基于10个训练样本得出的。
在表7中,PFS方法的参数数量被省略,因为其特征是通过手动计算而非神经网络得出的。与最先进的方法(不包括PKCA)相比,所提出的方法在参数数量和计算复杂度方面略高。就训练时间而言,依赖于数据增强的FCGAN比其他方法需要更长的时间。对于测试时间,尽管所提出的方法比四种最先进的方法稍慢,但其性能在工业场景中仍然可以接受。具体来说,所提出的方法处理7×1115个样本需要12.06秒,而这相当于312.2秒的监测周期,从而能够满足状态监测的实时性要求。
在本节中,我们通过检查网络权重来阐述所提出方法的学习机制。所提出方法的核心是利用辅助任务所学到的知识来指导主任务的学习过程,这意味着主任务的权重受到辅助任务所学知识的影响。
为了观察和评估多任务结构的影响,我们记录了辅助任务的权重分布 和整个所提出方法的权重分布{{P}_{m}}。当方法仅执行辅助任务时获得分布 ,而初始权重分布设置为正态分布 。由于主任务和辅助任务共享特征提取器的参数,我们绘制了特征提取器的权重分布。结果如图10所示。此外,为了量化权重分布 和 之间的相似性,我们计算了它们的Wasserstein距离,它是评估分布相似性的标准度量。
图10 特征提取器中的权重部分,WD代表Wasserstein距离。(a)(b)(c)(d)分别代表第1/2/3/4层卷积层的权重分布
在图10中,与初始分布 相比,第一卷积层的权重分布发生了显著变化。具体来说, 和 之间的Wasserstein距离为0.003102,表明这两个分布之间具有高度相似性。这种相似性表明,多任务网络的权重受到辅助任务的显著影响。
图11 特征提取器中三个权重分布的关系图
此外,我们探讨了分类任务中分布 、 和 之间的关系,该分类任务仅由训练数据指导。如图11所示,当所提出的方法仅执行主任务时,得到分布 。分布呈现出一定的对称性,两侧分布较密集,中间分布较稀疏。相比之下, 的中间分布并不明显低于两侧。与此同时, 整合了 和 的特征。这一观察结果表明,多任务学习网络的权重既受到训练数据的指导,也受到辅助任务中先验特征的指导。
图12 TX故障实验台,(a)为实验台全貌,(b)为被测轴承及齿轮
TX故障测试实验在TX测试台上进行。如图12(a)所示,TX测试台包括电机、齿轮箱、数据记录器和振动加速度传感器。与SQ实验不同,TX实验中的测试对象包括轴承和齿轮。被测试的轴承和齿轮安装在齿轮箱中,如图12(b)所示。在实验中,我们分别为每个被测试的轴承加工了六个单点损伤,并在被测试的齿轮上加工了一个故障。我们进行了七次实验以收集这些故障对象的振动数据。此外,我们还收集了正常状态下的振动数据。所用传感器的灵敏度为50 mV/g,电机转速为800 rpm,数据记录器的采样频率为5 kHz。
这八种健康状态可以缩写如下:轴承保持架故障(CF-0)、轴承滚子故障(RF-0)、轴承外圈点焊故障(OF-0)、轴承外圈轻微故障(OF-1)、轴承外圈中等故障(OF-2)、轴承外圈严重故障(OF-3)、齿轮故障(GF-0)和正常状态(NC-0)。我们使用1024个连续数据点作为一个数据样本,每种健康状态的数据被划分为774个数据样本。
表8 基于TX实验数据集的分类准确率结果
表9 基于TX实验数据的F1-Score结果
表10 基于TX实验数据的AUC结果
图13 20个训练样本下的分类结果
(a)为分类结果的混淆矩阵,(b)为特征可视化结果
我们基于所提出的方法和相关方法进行了实验。实验结果如表8、表9和表10所示。在上述表格中,所提出的方法优于相关方法。此外,我们还给出了当使用20个训练样本时,方法的分类混淆矩阵和特征可视化结果。结果如图13所示。从图13可以看出,所提出的方法能够使用少量训练样本区分不同类别的数据。
在工业场景中,有标签监测数据较为稀缺,因为标记数据是一项劳动密集型任务。与此同时,无标签监测数据更容易获取。在故障诊断中,许多论文都专注于利用无标签数据来提高诊断模型的性能。
所提出的方法也能够利用无标签数据。在所提出的方法中,辅助任务从原始数据中学习先验特征,这一过程不需要数据标签。因此,我们可以将额外的无标签数据用于辅助任务的训练。在这种情况下,所提出的方法可以从更多数据中学习先验知识,这有望进一步提高所提出方法的性能。
图14 在不同无标签训练数据下的故障分类准确率结果
为了验证无标签数据的增强效果,我们将有标签训练样本的数量固定为20个。我们分别取20、40、60、80和100个无标签样本用于学习辅助任务。我们记录了每种情况下的故障识别准确率,结果如图14所示。
图15 在20个有标签样本及100个无标签样本下的故障诊断准确率结果
从图14可以看出,无标签样本有助于所提出的方法获得更好的性能。当不使用无标签样本进行训练时,所提出方法的准确率为0.8806。当使用100个无标签样本时,准确率提高到0.9516。当无标签样本数量为100时的混淆矩阵和特征可视化结果如图15所示。与图13相比,使用无标签数据使所提出的方法获得了更强的分类能力和更具区分性的特征。
所提出方法的优势总结如下:
(1)该方法能够在训练数据极少的情况下实现准确的故障识别,这在工业环境中故障数据有限的情况下尤为有利。(2)该方法对噪声具有鲁棒性,使其适用于实际工业环境中普遍存在的强噪声污染场景。(3)它能够利用无标签数据来增强诊断性能,从而提高了其在工业场景中的实际应用价值。
与最先进的诊断方法相比,我们的方法在诊断准确率方面表现出一定的优势,在仅使用20个训练样本时,诊断准确率达到了0.9803。在计算复杂度方面,我们采用浮点运算次数(FLOPs)作为衡量指标。除PKCA外,所提出方法的计算成本在FLOPs方面略高于其他几种选定的最先进的方法。在网络骨干方面,我们的方法采用标准卷积神经网络(CNN),其设计相对简单,与其他方法中使用的骨干网络相比更容易实现。在知识利用方面,我们的方法与KEAE和PKCA一样,均利用了故障诊断领域知识。在应用可扩展性方面,我们认为其他方法经过适当调整后也有潜力应用于其他诊断场景。例如,FCGAN可以通过调整数据生成比例来解决不平衡数据集中的故障诊断问题。所提出的方法由于其简单且易于替换的网络骨干以及在故障诊断中普遍适用的先验知识,展现出更好的应用可扩展性。例如,所提出的方法可以选择对齿轮故障更敏感的信号特征作为先验特征,从而实现有限样本下的齿轮故障诊断。详细的比较结果如表11所示。
最后,关于未来的研究方向,短期内我们将专注于所提出方法的理论分析和优化。这具体包括动态权重分配函数的最优设计、模型训练稳定性的增强以及对过拟合和局部最小值的控制。在中期内,我们的研究方向将是将所提出方法应用于各种场景下的轴承诊断,包括不平衡数据场景和变化的工作条件下。长期研究方向包括两个方面。首先,我们计划整合其他故障诊断领域的知识,例如故障机理。其次,我们计划将所提出方法的应用扩展到其他机械部件的诊断,例如齿轮箱和转子系统。详细的研究计划可以在表12中找到。
由于机器故障数据并不总是充足的,因此在有限样本的情况下构建数据驱动的诊断模型是一个挑战。在本研究中,我们提出了一种基于先验知识引导多任务动态学习网络的少样本故障诊断方法。该方法同时实现了先验诊断知识的学习和故障识别。由于共享的网络结构,该方法仅使用少量故障数据就能提取高度可靠的故障特征。我们设计了两个少样本故障诊断场景,以验证所提出方法在不同任务条件下的有效性。广泛的实验结果表明,与最先进的方法相比,所提出的方法能够使用极其有限的故障样本实现更可靠的故障识别。所提出的方法在仅有20个故障训练样本时实现了高达0.9803的诊断准确率。此外,通过使用无标签数据,该方法的性能可以进一步提高。因此,所提出的方法是一个强大的工具,能够克服由于故障样本稀缺而带来的诊断挑战。
校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、海洋、冯珽婷、陈宇航、陈莹洁、王金、赵诚、肖鑫鑫