研究热点！论文分享｜基于谱稀疏深度反卷积的轴承智能故障诊断新方法

2月前浏览1757

近年来，对故障引起的重复瞬变检测的研究受到越来越多的关注，特别是在滚动轴承和齿轮故障诊断领域。小编整理搜集了一些未来研究热点与大家进行分享。本期分享的是基于谱稀疏深度反卷积的轴承智能故障诊断新方法，该论文发表于Engineering Applications of Artificial Intelligence 期刊，非常值得阅读！

论文链接：通过点击最左下角的阅读原文进行在线阅读及下载。

1 论文基本信息

论文题目：A novel bearing intelligent fault diagnosis method based on spectrum sparse deep deconvolution

论文期刊：Engineering Applications of Artificial Intelligence

Doi：

https://doi.org/10.1016/j.engappai.2024.108102

论文时间：2024年

作者：Huifang Shi (a), Yonghao Miao (a)(b)(c), Chenhui Li (a), Xiaohui Gu (c)

机构：

a School of Reliability and Systems Engineering, Beihang University, Beijing, 100191, China

b Advanced Manufacturing Center, Ningbo Institute of Technology, Beihang University, Ningbo, 315100, China

c State Key Laboratory of Mechanical Behavior and System Safety of Traffic Engineering Structures, Shijiazhuang Tiedao University, Shijiazhuang, 050043, China

2 摘要

1 论文基本信息

2 目录

3 摘要

4 引言

5 最大包络谱峰度反卷积方法

5.1 平方包络谱峰度

5.2 用特征向量算法实现最大包络谱峰度反卷积

6 所提出的谱稀疏深度反卷积方法

6.1 基于SESK范数的深度网络

6.2 用特征值算法实现SESK引导优化

7 所提出方法的实施

8 总结

注：本文只选中原论文部分进行分享，若想拜读，请下载原论文进行细读。

小编能力有限，如有翻译不恰之处，请多多指正~

3 目录

提取具有循环平稳性的故障诱导重复瞬态是旋转机械故障诊断的关键，对保证机械设备的安全可靠运行具有重要意义。传统的去卷积方法主要从时域恢复故障相关脉冲特征，在强干扰条件下容易导致故障诊断效果不佳。针对这一问题，提出了一种基于深度神经网络结构的谱稀疏深度反卷积方法（Spectrum Sparse Deep Deconvolution, SSDD）。该方法以包络谱稀疏准则为代价函数，通过深度神经网络寻找最优逆滤波器。首先，设计了一种特殊的频带平均策略，利用窗口法对神经网络输入层的滤波器进行初始化，为反卷积提供方向。其次，利用包络谱峭度在包络谱域上能够刻画稀疏特征的特性作为代价函数，指导深层网络的训练，锁定故障信息。然后，通过特征值算法实现最优权值，逐层增强和提取弱稀疏特征。最后通过降维得到最显著的故障信息。仿真和实验数据分析验证了所提方法在故障诊断性能和对随机脉冲和强背景噪声的鲁棒性方面上级传统的反卷积方法。

4 引言

重复瞬变的存在意味着早期机械设备故障的可能性。近年来，对故障引起的重复瞬变的检测的研究受到越来越多的关注，特别是在滚动轴承和齿轮故障诊断领域。然而，提供信息的特征通常受到强背景噪声或其它多重干扰的影响，并进一步受到长而复杂的传输路径的损害。因此，各种信号处理方法，如谱峰度、分解、小波变换、稀疏表示等，用于典型部件的故障特征提取。在各种技术中，盲反卷积（Blind Deconvolution, BD）与其他方法相比具有独特的优势，因为它通过使用自适应滤波抵消传输路径的影响来抑制噪声和干扰，这在当前的研究中已被广泛接受。

BD方法的基本原理是通过最大化或最小化合适的反卷积目标函数（Objective Function, OF）来自适应地设计逆滤波器，以增强并进一步恢复复测量信号中的脉冲特征。结果，BD方法的性能高度依赖于完全定向解卷积结果的OF的选择。不同的基于特征的指标可以从不同的角度刻画脉冲特征，作为BD方法的操作函数。根据标准的不同，BD方法主要可分为以下两类：

第一类以时域定义的指标为核心，包括峰度、L2/L1范数、基尼指数等，例如，最小熵反卷积（Minimum Entropy Deconvolution, MED）作为最经典的BD方法，被认为是脉冲特征提取的有效方法。该算法以峰度为反卷积目标，寻找最优的反滤波器，以尽可能地增强脉冲特征。然而，由于峰度的统计性质，当存在大的随机冲击时，MED倾向于收敛到无效的去卷积结果。为了克服MED的局限性，McDonald等人引入周期性设计了一个新的指标——相关峰度(Correlated Kurtosis, CK)，并由此发展了最大相关峰度反卷积(Maximum Correlated Kurtosis Deconvolution, MCKD)。其它最佳指数如广义Lp/Lq范数和基尼指数，可以作为改进BD方法的替代策略。然而，这些传统的时域BD方法都有一个共同的问题，即它们可能在强噪声存在下失效。最近，提出了一种新的深层反卷积方法，称为MCKD-DeNet，该方法可以使用梯度下降算法通过深层结构来学习断层特征，以便于断层提取，尤其是当存在严重背景噪声时。MCKD-DeNet利用其深层结构，能够高效、高精度地从含噪信号中提取和增强周期性脉冲，克服了传统单层BD方法对强噪声鲁棒性差的缺点。

上述时域BD方法仅考虑故障脉冲的波形特征，在评估轴承或齿轮故障引起的重复瞬态的循环平稳特性方面性能较差。幸运的是，这种循环平稳行为在包络谱(Envelope Spectrum, ES)中的相应故障频率处引起离散且明显的峰值，使得ES域指数更有信息量以补偿时域指数的不足。因此，人们从ES域开始陆续构造了许多优秀的指标来改进传统的BD方法，这些指标被归为第二类。传统的滤波器优化算法——目标函数法(objective function method, OFM)。在时域BD方法中，由于ES域指标的数学推导不方便，很难应用于ES域OFM的最优滤波器系数搜索。因此，Lee等人创造性地提出了一种基于广义Rayleigh商求解优化问题的强有力工具--特征值算法(Eigenvalue Algorithm, EA)，将限制性求导运算转化为更简单的矩阵运算。得益于EA，Peeters等人分别使用L2/L1范数、Hoyer指数和ES域中的负熵作为OF来开发新的BD方法。此外，光谱基尼指数和频谱谐波噪声比也被用于在EA的基础上建立BD方法。与此同时，He等人提出了一种基于ES域广义Lp/Lq范数的先验未知BD方法，并得出结论：ES域BD方法在对随机脉冲的鲁棒性方面上级传统时域BD方法。然而，ES域BD方法仍然没有摆脱对强背景噪声抵抗力弱的问题。

将特征学习引入反卷积理论，提出了一种新的深度反卷积方法——谱稀疏深度反卷积方法(Spectrum Sparse Deep Deconvolution, SSDD)，该方法可以提高传统BD方法识别早期和弱断层的能力，特别是在强噪声条件下的识别能力。该方法采用包络谱峰度代替时域峰度作为代价函数来寻找最优滤波器。该方法在深度神经网络的支持下，巧妙地利用EA更新最优权值，逐层提取稀疏特征。所提出的方法的优点可以概括为：

(1) 利用包络谱峰度作为特征函数，该方法对随机脉冲具有较强的鲁棒性。

(2) 与传统的单层BD方法相比，本文提出的基于深层结构的故障特征提取方法具有更好的抗强背景噪声能力。

(3) 本文巧妙地使用EA训练网络权值，有效地避免了用ES域指标作为OF来推导梯度的困难。

5 最大包络谱峰度反卷积方法

5.1 平方包络谱峰度

故障周期脉冲在时域上具有脉冲性，在频域上具有循环平稳性，这一点已被广泛认识。然而，故障引起的时域周期性脉冲容易被强噪声淹没。相反，循环平稳信号的故障信息在其ES中表现出明显的稀疏性，这意味着ES的稀疏性适合于识别故障特征的报告。因此，包络谱准则成为评价故障特征的最佳候选准则。在本研究中，选择平方包络谱峭度(square envelope spectral kurtosis, SESK)作为代价函数，以引导网络训练放大噪声信号中的微弱故障特征。信号的SESK的计算如下所示。

首先给出了时域峭度的定义，它可以直接度量故障脉冲的冲激性，将其与其它无关脉冲区分开来。对于长度N的信号

，

的峰度计算为：

接下来，

的平方包络谱(Square Envelope Spectrum, SES)定义如下：

此外，通过傅里叶变换从时域转换到频域来评估信号的周期性，可以消除随机脉冲对峰度范数的影响。也就是说，SESK是一个很好的衡量故障特征的指标，比时域峰度对随机脉冲更鲁棒。

图1 随机脉冲信号(a)及其包络谱(b)，周期脉冲信号(c)及其包络谱(d)

为了突出SESK相对于峰度的优势，本小节进行了模拟分析，比较了随机脉冲信号和周期性脉冲信号的指数值，如图1（a）和（c）所示。它们被添加了相同的高斯白色噪声，平均值为0，方差为0.1。随机脉冲的幅度被设置为2，而周期脉冲的幅度被设置为1。脉冲响应的仿真参数与下面第4节中的仿真分析中的参数相同，这里不再详细描述。此外，将两个模拟信号变换到ES域，并在图1（b）和（d）中显示了它们的包络谱。如图1所示，分别计算了两个仿真信号的峰度和SESK。图1显示了峰度值和SESK值之间的显著差异。尽管随机脉冲信号在时域中的峰度值远大于周期脉冲信号的峰度值，但SESK值正好相反。这一现象意味着基于时域峰度的方法更适用于随机脉冲而不是故障相关的周期脉冲，而基于SESK的方法则不受随机脉冲的干扰。此外，由于随机脉冲的非周期性，随机脉冲的ES是非常混乱的，如图1（b）所示，包含宽范围的频率分量。相比之下，时域中的周期性脉冲将导致ES域中稀疏且均匀分布的峰值这也解释了为什么基于SESK的BD方法在实际应用中优于传统的时域MED方法。在下一小节中，将通过EA最大化SESK来设计一种新的基于SESK的BD方法。

5.2 用特征向量算法实现最大包络谱峰度反卷积

EA首先由Lee等人引入以恢复脉冲信号，将限制性求导计算转化为更简单和简洁的矩阵运算。EA的核心是基于广义Rayleigh商通过迭代求解优化问题来获得最优系数向量。利用EA的优点，将SESK作为OF，通过最大化滤波后信号的SESK，可以设计一种新的BD方法——最大包络谱峰度反卷积(Maximum Envelope Spectral Kurtosis Deconvolution, MEKD)。

假设x是从被监测的机器收集的测量数据，根据反卷积理论，理想的反向滤波器需要在与测量信号x卷积之后近似期望的故障脉冲信号。因此，反卷积的滤波过程可以用矩阵形式表示：

其中，

，

，分别指的是滤波信号

，根据测量信号x构建的Toeplitz矩阵，以及最佳滤波器系数向量。

接下来，滤波信号

的SES可以重写为：

其中，

，

指

的是共轭转置运算。因此，滤波信号y的SESK的表达式可以表示为：

其中，

和

是相应的加权相关矩阵。

此时，基于上式中所示的广义Rayleigh商，滤波信号的SESK的最大化问题已经转化为特征向量问题，如下所示：

通过选择与最大特征值λ相关联的特征向量来求解滤波器系数向量f。利用迭代算法，可以得到最优的系数，从而恢复出最显著的故障脉冲信号。

利用SESK索引对随机脉冲的强鲁棒性，MEKD比传统的MED更不可能收敛到随机脉冲信号。然而，MED和MEKD都是传统的单层BD方法，已经发现其对强噪声不鲁棒。因此，在下一节中，本研究将深度学习与反卷积理论相结合，提出了一种新的基于单层MEKD的深度反卷积方法——SSDD，以有效地从含噪信号中提取微弱特征。

6 提出的谱稀疏深度反卷积方法

在这一部分，提出了一种新的深度反卷积方法，将深度学习集成到反卷积中，以实现强噪声中的特征提取。首先，介绍了基于SESK范数的深度网络的基本原理和结构。其次，给出了权值初始化策略。其次，利用扩展的EA算法解决了优化问题。最后，一个通用的实现所提出的SSDD方法的故障特征提取的描述和演示。

6.1 基于SESK范数的深度网络

特征学习算法致力于将原始数据转换为更好地代表问题性质的特征，以便在机器学习任务中加以利用。实际上，解决反卷积问题本质上是一个特征学习过程。遵循这一观点，Jia等提出了一种新的反卷积方法--卷积稀疏滤波(Convolutional Sparse Filtering，CSF)，并将其成功应用于轴承故障诊断，该方法可以直接从测量信号中学习稀疏特征，进而增强脉冲特征。类似地，Miao等人开发了一种称为MCKD-DeNet的深度反卷积方法，并在深层结构的帮助下，令人难以置信地增强了来自噪声信号的周期性脉冲。受此启发，所提出的SSDD方法使用类似于稀疏滤波的深度网络，并将在下面的小节中详细阐述。

表1 传统MEKD滤波器与几种典型特征学习算法的比较

为了阐明传统MEKD滤波器与特征学习过程之间的关系，如表1所示，给出了MEKD滤波器的数学解释和一些常用的特征学习算法，包括CSF滤波器、主成分分析和独立成分分析。从表1可以看出，传统的MEKD滤波器和这些典型的特征学习算法具有相同的数学本质。因此，我们可以将传统的BD问题视为特征学习问题，并将单层MEKD方法扩展到类似于稀疏滤波的深度网络，即所提出的SSDD方法。

图2 单节点单层结构的特征学习框架

由于BD问题和特征学习问题在数学上是相似的，我们提出通过最大化成本函数来解决盲问题，即，滤波信号的SESK。如图2所示，用于特征学习的SSDD的单节点和单层结构试图找到逆滤波器以获得最佳信号y，该最佳信号y从原始信号x恢复尽可能多的故障稀疏特征。

图3 多节点多层结构的特征学习框架

然而，仿真发现SSDD的单节点单层结构在某些情况下不足以进行特征学习，特别是在严重干扰的情况下，因为它实际上是传统的单层MEKD方法。为了提高所提出的方法对强噪声的鲁棒性，从而从噪声信号中检测更深的稀疏特征，将单节点和单层结构扩展到多节点和多层结构，如图3所示。在输入层中，测量信号x用作输入。该特定层与传统的反卷积理论相同。每个节点代表一个逆滤波器，并通过所提出的初始化技术进行初始化。为了提高训练效率，应用额外的降维操作来筛选包含最多故障信息的高质量信号。在隐藏层中，将前一层的稀疏特征作为下一层的输入，然后通过加权训练过程逐层增强稀疏特征。在输出层，通过选择主要稀疏特征，将隐层中得到的高维特征矩阵压缩到较低的维数。该方法利用了深度结构和神经网络的优点，可以有效地从强噪声中检测出微弱的脉冲特征。

6.2 用特征值算法实现SESK引导优化

对于传统BD方法中的优化问题，许多算法，包括OFM（Wiggins，EVA1978）、EA（Lee和南迪，2000）、多目标优化（Cheng等人，2018），以及梯度下降算法（Fang等人，2022）已被应用于最大化或最小化目标函数。然而，目前只有现成的梯度下降算法成功地与深层结构和神经网络的框架相结合，限制了目标函数的选择。但梯度下降算法需要目标函数的显式梯度公式，导致目标函数仅限于时域指标，而没有频域指标。因此，必须引入其他优化方法，以使频域指标作为目标函数的应用。

众所周知，EA是一种从矩阵运算的角度求解目标函数最优解的有力工具，而不要求目标函数是数学可导的。在这项研究中，利用包络谱域指标在一个深的反卷积框架，SESK被用作成本函数在建议的SSDD方法来指导优化，和伊娃扩展的深层结构，以解决SESK引导的优化问题，在训练过程中，实现如下。

在训练处理中，如

中所述逐层提取稀疏特征。

是在前一层中获得的特征矩阵，即第i层，特别是指输入层中的Toeplitz矩阵。对于每个节点，所提出的方法的目标函数可以以矩阵形式重写如下：

因此，优化问题可以表示为：

接下来，根据EA原理，确定最佳加权向量通过找到对应于最大的特征向量来获得。

之后，将上述求解过程扩展到多节点多层结构，单层算法过程详见表2。最后，在逐层训练后迭代更新加权矩阵，以获得增强的稀疏特征。

表2 详细的单层算法程序

7 所提出方法的实施

表3 提出的SSDD方法的详细步骤

图5 所提出方法的示意图

基于先前的描述，所提出的具有深层结构的SSDD方法的主要步骤可以在表3中描绘。此外，所提出的SSDD方法的示意图显示在图5中。

经过深度架构神经网络的特征学习后，对潜在的弱故障特征进行逐层增强，最后通过降维输出最显著的故障特征。值得注意的是，所提出的SSDD方法在两种情况下使用了降维操作。前者在输入层末对信号进行筛选，去除故障信息较少的信号，从而提高输入隐层信号的质量。后者在输出层选取增强后的信号，选择最显著的故障特征，可用于后续的故障诊断和分析。在使用中的成熟和先进的降维方法中，PCA是用于提取线性情况下数据的主要特征分量的最广泛使用和最优秀的方法之一。通过实验证明，PCA方法适用于SSDD方法，并能取得满意的降维效果。

作者在文中进行了充分的仿真实验，消融实验和对比实验，建议读者下载文章仔细阅读哦！

8 总结

本文提出了一种新的深度反卷积方法SSDD，该方法引入包络谱域度量来指导特征学习，以寻找反褶积的最优滤波器。利用SESK范数和深层结构，SSDD可以直接从输入数据中有效地增强和提取微弱的和早期的故障信息。与传统的反卷积方法相比，SSDD被认为是一种很有前途的工具，用于提取旋转机械的脉冲故障特征。通过仿真和实验分析，验证了该方法对随机脉冲和强背景噪声具有较强的鲁棒性，具有较好的故障诊断性能。此外，由于所提出的深层结构模型具有明确的断层特征描述能力和优化目标，因此具有一定的可解释性。

客官，球球再点个广告，再走吧~

编辑：曹希铭

校核：李正平、王畅、陈凯歌、赵栓栓、赵学功、白亮

该文资料搜集自网络，仅用作学术分享，不做商业用途，若侵权，后台联系小编进行删除

点击左下角阅读原文，即可在线阅读论文。

来源：故障诊断与python学习

综述 | 智能故障预测和健康管理的小样本数据挑战(上)

本期受文章作者投稿给大家分享一篇SCI二区的小样本数据综述文章。如果有故障诊断相关方向研究人员希望宣传自己研究成果，欢迎大家在公众号后台与小编联系投稿，大家一起交流学习。本期给大家推荐一篇的关于小样本数据的综述文章，该综述阐明了小样本数据的定义、成因和对PHM任务的影响，分析了当前解决小样本数据问题的主流方法及其优缺点，指出一些有前景的方向以启发未来研究。本综述分3次推送，本节推文是这篇文章的第1部分，希望对大家的学习有所帮助，也同时希望大家可以多多引用。论文链接：通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目：Small data challenges for intelligent prognostics and health management: a review论文期刊：Artificial Intelligence Review(SCI二区Top)论文日期：2024.07论文链接: https://doi.org/10.1007/s10462-024-10820-4 作者：Chuanjiang Li(1), Shaobo Li(1), Yixiong Feng(1), Konstantinos Gryllias(2), Fengshou Gu(3), Michael Pecht(4)机构：1 State Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, Guizhou, China 2 Department of Mechanical Engineering, Flanders Make, KU Leuven, 3000 Louvain, Belgium 3 School of Computing and Engineering, University of Huddersfield, Huddersfield HD1 3DH, UK 4 Advanced Life Cycle Engineering, University of Maryland, College Park, MD 20742, USA通讯作者邮箱：licj@gzu.edu.cn作者简介：李传江，工学博士，贵州大学公共大数据国家重点实验室专任教师、特聘教授C岗、硕士生导师。2021-2024年在比利时鲁汶大学(KU Leuven)联合培养，合作导师为Konstantinos Grylias教授。主要开展无人机大数据融合分析、通用人工智能算法、数字孪生与智能运维等研究，主持国家重点研发计划子课题1项，留学基金委联合培养博士项目1项、贵州大学特岗基金1项，主研国家重点研发计划、国家自然科学基金、集成公关大平台等项目6项，参编专著2部已发表SCI/EI检索论文20余篇，入选ESI全球Top1%高被引论文2篇。参加国际国内学术会议10余次并作学术报告，担任《Smart Construction》、《中国测试》、《无人系统技术》等国际国内著名学术期刊的青年编委，担任Transactions on Pattern Analysis and Machine Intelligence、 Knowledge Based Systems, ArtificialIntelligence Review等多个国际SC|期刊审稿人，指导学生参加互联网+、挑战杯等多项国际国内竞赛并获奖。个人主页：http://pbd.gzu.edu.cn/2024/0105/c17349a211760/page.htm目录1 摘要2 引言3 小样本数据在PHM中挑战分析 3.1 什么是小样本数据 3.2 PHM中小样本问题的原因 3.3 PHM任务中小样本数据的影响4 PHM中应对小样本数据挑战的方法综述 4.1 数据增强方法 4.2 迁移学习方法 4.3 少样本学习方法5 PHM应用中问题讨论 5.1 AD任务的小样本数据问题 5.2 FD任务的小样本数据问题 5.3 RUL任务的小样本数据问题6 数据集和实验设置 6.1 数据集 6.2 实验设置7 未来研究方向 7.1 数据治理 7.2 多模态学习 7.3 基于物理信息数据驱动的方法 7.4 弱监督学习 7.5 联邦学习 7.6 大模型8 总结1 摘要故障预测与健康管理（PHM）对于提高设备可靠性和降低维护成本至关重要，近年来，在大数据和深度学习技术的推动下，智能PHM研究取得了重大进展。然而，现实工业场景中固有的复杂工况和高成本数据收集对这些方法的应用带来了小样本数据挑战。鉴于学术界和工业界对数据高效PHM技术的迫切需求，本文旨在探索PHM领域小样本数据挑战的基本概念、当前研究和未来发展趋势。本文首先阐明了小样本数据的定义、成因和对PHM任务的影响，然后分析了当前解决小样本数据问题的主流方法及其优缺点，包括数据增强、迁移学习和小样本学习技术。此外，本综述还总结了基准数据集和实验范式，以便在小样本数据条件下对各种方法进行公平评估。最后，指出一些有前景的方向以启发未来研究。关键词：故障预测与健康管理（PHM）；小样本数据；数据增强；小样本学习2 引言故障预测与健康管理（PHM）是通过分析收集到的监测数据来实现机械设备状态感知和智能维护的一个日益重要的框架，正在越来越多的行业中得到应用，如航空航天（Randall 2021）、交通运输（Li 等人 2023a）和风力涡轮机（Han 等人 2023）。根据美国国家科学基金会（NSF）进行的一项调查（Gray 等人，2012 年），PHM 技术在过去十年中创造了 8.55 亿美元的经济效益。正是由于 PHM 具有如此巨大的应用潜力，它不断吸引着不同学术界的持续关注和研究，包括但不限于可靠性分析、机械工程和计算机科学。从功能上讲，PHM 涵盖设备的整个监控生命周期，在四个关键方面发挥作用：异常检测 (AD)、故障诊断 (FD)、剩余使用寿命 (RUL) 预测和维护执行 (ME)（Zio 2022）。首先，异常检测旨在发现明显偏离标准模式的罕见事件，关键在于从大量正常数据中准确区分出少数异常数据（Li 等人，2022a）。FD 的重点是对各种故障进行分类，难点是在复杂的工作条件下提取有效的故障特征。RUL 预测侧重于估算组件或系统发生故障前的剩余时间，其主要挑战在于构建能够描述健康状况恶化趋势的综合健康指标。最后，ME 根据诊断和预测结果优化维护决策（Lee 和 Mitici，2023 年）。从方法论上讲，用于执行 AD、FD 和 RUL 预测等 PHM 任务的技术可分为基于物理模型的方法、数据驱动的方法和混合方法（Lei 等人，2018 年）。基于物理模型的方法利用数学模型来描述故障机制和信号关系，代表性技术包括状态观测器（Choi 等人，2020 年）、参数估计（Schmid 等人，2020 年）和一些信号处理方法（Gangsar 和 Tiwari，2020 年）。然而，数据驱动方法涉及从传感器信号中手动或自适应提取特征，包括统计方法（Wang 等人，2022 年）、机器学习（ML）（Huang 等人，2021 年）和深度学习（DL）（Fink 等人，2020 年）。混合方法（Zhou 等人，2023a）结合了基于物理模型和数据驱动技术的元素。在这些方法中，基于深度学习的技术在从 AD 到 ME 的 PHM 任务中获得了广泛关注，这归功于它们在自动特征提取和模式识别方面相对于传统技术的明显优势。图1描述了基于深度学习模型的智能PHM框架(Omri et al. 2020)，其中步骤包括数据收集和处理、模型构建、特征提取、任务执行和模型部署。显然，状态数据是这一循环的基础，其数量和质量对DL模型在工业环境中的最终性能有着决定性的影响。然而，不同的工况下收集由各种异常和故障模式组成并带有精确标签的大量数据集既耗时又危险，而且成本高昂，这就导致了小样本数据问题，对模型在PHM任务中的性能提出了挑战。Dimensional Research最近进行的一项调查强调了这一窘境，调查显示96%的公司在实施工业ML和DL项目时遇到了小样本数据问题(D. Research 2019)。图1 基于深度学习的智能PHM步骤(Omri et al. 2020)值得注意的是，现有研究提供了有价值的指导，但它们尚未深入研究小样本数据的基本概念，在分析中表现出一定的局限性。例如，一些综述从宏观角度研究了小样本数据问题，而没有考虑 PHM 任务的应用特点（Chahal 等人，2021 年；Adadi，2021 年；Cao 等人，2023 年）。然而，有些研究仅仅集中于用于解决 FD 任务中的小样本数据难题的特定方法（Pan 等人，2022；Zhang 等人，2022a；Li 等人，2022b），缺乏对 AD 和 RUL 预测任务解决方案的系统研究，严重限制了智能 PHM 的发展和工业应用。因此，有必要对 PHM 领域的小样本数据挑战进行深入探讨，为智能模型在工业领域的成功应用提供指导。本综述是对解决PHM领域中的小样本数据挑战这一需求的直接回应，旨在澄清以下三个关键问题：1）什么是PHM中的小样本数据？2）为什么要解决小样本数据挑战？3）如何有效解决小样本数据挑战？这些基本问题将我们的工作与现有调查区分开来，并展示了我们的主要贡献：（1）首次研究了智能PHM所面临的小样本数据挑战，并详细分析了其定义、原因和影响；（2）概述了解决小样本数据问题的各种先进方法，并讨论了每类PHM任务的具体问题和剩余挑战；（3）总结了常用的基准数据集和实验设置，为开发和评估PHM中的数据高效模型提供参考；（4）最后，指出了未来小样本数据研究的发展方向。因此，本文按照图3所示的层次结构进行组织。第2节讨论了PHM领域小样本数据的定义，并分析了相应的原因和影响。第3节全面概述了具有代表性的方法，包括数据增强（DA）方法（第3.1节）、迁移学习（TL）方法（第 3.2 节）和少样本学习（FSL）方法（第 3.3 节）。第4节讨论了PHM应用中的问题。第5节总结了用于模型评估的数据集和实验设置。最后，第6节给出了潜在的研究方向，第7节得出结论。此外，表2总结了本文中使用的缩略语。图3 本综述的层次结构3 小样本数据在PHM中的挑战分析DL模型在执行PHM任务时的出色表现与丰富而高质量的标注数据这一前提密不可分。然而，这一假设在工业领域不太可能得到满足，因为小样本数据往往是常态，它具有独特的数据分布，可能导致模型学习困难。因此，本节首先分析了小样本数据在 PHM 中的定义、原因和影响。3.1 小样本数据是什么在回答“什么是小样本数据”问题之前，让我们先回顾一下“大数据”这个相对的术语，自2012年诞生以来，学者们对它具有各种不同的解释。Ward等人认为大数据是一个“描述使用一系列技术存储和分析大型或复杂数据集”的短语。另一种观点，如文献Suthaharan (2014)所述，侧重于数据的数量、连续性和复杂性。在各种定义中，被广泛接受的是“5V”属性：数量、种类、价值、速度和真实性(Jin et al. 2015)。经过长期研究，一些专家发现，大数据并非无处不在，小样本数据范式已成为人工智能领域值得深入研究的新领域(Vapnik 2013; Berman 2013; Baeza-Yates 2024; Kavis2015)。Vapnik (2013) 是这一领域的先驱之一，他将小样本数据定义为“训练样本数与学习机的Vapnik-Chervonenkis（VC）维数之比小于20”的情况。J. Berman(2013) 认为，小样本数据用于解决基于来自一个机构的有限和结构化数据的离散问题。另一项研究将小样本数据定义为“数据的数量和格式使其可访问、可提供信息和可操作”(Baeza-Yates 2024)。在工业背景下，Kavis (2015)将小样本数据描述为“物联网产生的一小批特定属性，这些属性通常是一小批传感器数据，如温度、风速、振动和状态”。考虑到各行业设备信号的独特属性，这里给出了PHM中小样本数据的新定义：小样本数据指的是由传感器采集的设备或系统状态信息组成的数据集，其特点是样本的数量或质量有限。以FD任务为例，相应的数学表达式为：给定数据集，是第个故障的样本和标签（如有）。表示中故障类别的数量，每个故障集的样本大小为。值得注意的是，“小”一词有两种含义：（i）从数量上看，“小”表示数据集数量有限、样本量有限或故障类型总数最小；（ii）从质量上看，“小”表示由于中存在大量异常、缺失、未标记或噪声标记的数据，因此缺乏有价值的信息。在数量和质量方面，“小”的定义没有固定的阈值，这是一个开放的问题，取决于要执行的具体PHM任务、分析的设备、选择的方法和期望的性能。3.2 PHM中小样本问题的原因传感器和工业互联网技术的飞速发展简化了收集设备监控数据的过程。然而，目前只有大型企业才有能力大规模采集数据。由于收集到的数据大多是正常样本，异常或故障数据有限，因此无法为模型训练提供足够的信息。如图4所示，分析了PHM面临小样本数据挑战的四个主要原因。图4 造成PHM中小样本数据挑战的4个主要原因3.2.1 大量投资在部署智能 PHM 系统时，投资回报率（ROI）是企业最关心的问题。如图 4 第一象限所示，大量投资主要来自两个方面：首先，(i)工厂需要对现有的旧设备进行数字化升级，以收集监控数据。(ii) 其次，数据标注和处理需要人工操作和领域专业知识。虽然目前传感器和标注外包的成本相对较低，但在众多机器上安装传感器和处理 TB 级数据仍超出了大多数制造商的能力范围。3.2.2 数据访问限制在第二象限中，这一因素突出表现在以下方面：(i) 数据的敏感性、安全性或私密性通常会导致严格的访问控制，例如数据收集军事装备。(ii) 在数据传输和数据共享方面，个人、企业和国家都需要遵守法律和监督条例，尤其是在发布《通用数据保护条例》（Zarsky 2016）之后。3.2.3 复杂工况图 4 第三象限描述的内容包括 (i) PHM 中的数据分布本身在不同的生产任务、机器和操作条件下显示出显著的可变性（Zhang 等，2023 年），因此不可能在所有潜在条件下收集数据。(ii) 在高辐射等特殊服务环境中采集数据具有固有风险。(iii) 设备从健康状态发展到最终失效需要经历一个漫长的过程。3.2.4 多因素耦合随着设备的集成度越来越高，相关性和耦合效应不断增强。如图 4 第四象限所示：耦合存在于 (i) 多个组件、(ii) 多个系统和 (iii) 不同过程之间。这种相互作用通常具有非线性、时间可变性和属性不确定性等特点，进一步增加了数据采集的复杂性。3.3 PHM任务中小样本数据的影响标注的高质量数据的可用性仍然有限，这对执行 PHM 任务产生了一些影响，主要包括数据和模型层面（Wang 等，2020a）。如图 5 左侧所示，数据层面的影响主要包括数据不完整和分布不平衡，进而导致模型层面的泛化效果不佳。本节将以 FD 任务为例，通过相应的评价指标分析这些影响。图5 当前主流方法对PHM领域中小数据问题的影响3.3.1 不完整数据数据完整性是指“数据中包含的信息的广度、深度和范围”（Chen等人，2023a）。然而，由于故障类别或样本量的限制，所获得的小样本数据集通常表现出监督信息密度低的特点。此外，不完整数据中的缺失值和标签或异常值加剧了有价值信息的稀缺性。PHM中的数据不完整性可以通过以下指标来衡量： (1) (2) 其中表示数据集的不完整性，和分别是中不完整样本的数量和总样本数量。同样，根据公式（2），这个指标也可以评估某一类别中样本的不完整性。当或接近0时，表示数据集或类别相对完整。相反，较高的值表示数据不完整程度较高，导致数据中的信息大量丢失。3.3.2 数据分布不平衡第二个影响是数据分布不平衡。包含样本数量较多或较少的故障类别分别称为多数类和少数类。根据不同类之间或同一类内部存在的不平衡程度，相应地会出现类间不平衡或类内不平衡现象。考虑一个包含两种不同故障类型的数据集，每种类型包含两个子类，类间不平衡度和类内不平衡度可以量化为（Ren等人，2023）： (3) (4) 其中，和分别表示数据集中多数类和少数类的数量。和表示类别内两个子类的样本量。上述值的范围是[1, ∞)，用于描述不平衡的程度。或的值为1表示类间或类内是平衡的，而值为50通常被领域专家认为是高度不平衡的任务（Triguero等人，2015）。 3.3.3 模型泛化能力差从技术上讲，监督深度学习的主要原理是构建一个模型，该模型从训练集中学习潜在模式，并尝试预测先前未见过的测试数据的标签。训练集上的经验误差和测试集上的预期误差可以通过分别计算真实标签和预测标签之间的差异来得出。这两个误差之间的差异，即泛化误差，通常用于衡量训练模型在测试集上的泛化能力。泛化误差受模型复杂度和训练数据大小的限制，如下所述（LeCun等人，1998）： (5)其中是一个常数，是一个系数，其值范围为[0.5, 1.0]。上述方程表明，参数决定了模型的泛化能力。当足够大时，具有特定的模型的将趋向于0。然而，数据量小不完整或不平衡样本往往会导致G 较大，泛化能力较差。原文获取：点击文章左下角阅读原文获取文章原文。客官，球球再点个广告，再走吧~ 点击左下角阅读原文，即可在线阅读论文。来源：故障诊断与python学习