4.1 数据
数据增强方法为处理小样本数据问题提供了数据层面的解决方案,其有效性已在许多研究中得到验证。基本原理是通过创建现有数据的副本或新的合成样本来提高训练数据集的数量或质量(Gay等人,2023)。根据辅助数据的生成方式,分析了基于变换、基于采样和基于深度生成模型的数据增强方法。
基于变换的方法是数据增强中最早的一类,通过对现有样本进行几何变换而不改变标签来增加小样本数据集的大小。这些变换非常多样化和灵活,包括随机裁剪、垂直和水平翻转以及噪声注入。然而,大多数方法最初是为二维图像增强而设计的,难以直接应用于设备的一维信号(Iglesias等人,2023)。
考虑到监测数据的时序特性,学者们已经设计出适用于增加一维数据的变换方法(Meng等人,2019;Li等人,2020a;Zhao等人,2020a;Fu等人,2020;Sadoughi等人,2019;Gay等人,2022)。例如,Meng等人(2019)提出了一种用于旋转机械故障诊断的数据增强方法,该方法将原始样本均等分割,然后随机重组片段以形成新的故障样本。在Li等人(2020a)和Zhao等人(2020a)的研究中,同时应用了多种变换技术,如高斯噪声、随机缩放、时间拉伸和信号平移,如图6所示。值得注意的是,所有上述技术都是对整个信号施加的全局变换,可能会忽视局部故障特性。因此,一些研究结合了局部和全局变换(Zhang等人,2020a;Yu等人,2020,2021a),以改变原始信号的局部和整体部分,从而获得更真实的样本。例如,Yu等人(2020)同时使用了局部和全局信号放大、噪声添加和数据交换的策略,以提高故障样本的多样性。
4.1.2 基于采样的数据增强
基于采样的数据增强方法通常用于解决小样本下数据不平衡问题。其中,欠采样技术通过减少多数类的样本大小来解决数据不平衡问题,而过采样方法则通过扩展少数类的样本来实现数据增强。过采样可以进一步分为随机过采样和合成少数类过采样技术(SMOTE)(Chawla等人,2002),取决于是否创建了新的类别。如图7所示,随机过采样将少数类的数据复 制次以增加数据量,而SMOTE通过计算少数类样本的个最近邻来创建合成样本,同时增强样本的数量和多样性。
为了解决监测数据中健康样本丰富而故障样本较少导致的数据不平衡问题,一些研究(Yang等人,2020a;Hu等人,2020)引入了增强的随机过采样方法。例如,Yang等人(2020a)针对故障诊断任务中的不平衡和不完整数据,通过引入一种变尺度采样策略增强了随机过采样效果;而Hu等人(2020)使用重采样方法来模拟不同工况下的数据,以降低领域偏差。相比之下,由于SMOTE技术具有固有优势,在PHM任务中得到了广泛应用(Hao和Liu,2020;Mahmoodian等人,2021)。Hao和Liu(2020)将SMOTE与欧几里得距离相结合,实现了对少数类样本更好的过采样。为了解决合成样本选择适当最近邻的困难,Zhu等人(2022)计算了最近邻的欧几里得距离和马氏距离,而Wang等人(2023)则利用邻域分布的特征来平衡样本。此外,Liu和Zhu,Fan,Dou等人的研究通过采用加权分布来进一步提高了SMOTE的适应性,使分类边界的重要性更多地转向具有挑战性的少数类,从而有效解决了数据不平衡问题。
4.1.3 基于深度生成模型的数据增强
此外,自2017年以来,深度生成模型已成为解决小样本数据问题的极具前景的手段,其中自编码器(AE)和生成对抗网络(GAN)是两个典型代表(Moreno-Barea等人,2020)。AE是一种特殊类型的神经网络,其特点是以无监督的方式将输入编码到输出(Hinton和Zemel,1994),优化目标是学习输入数据的有效表示。AE的基本架构如图8a所示,包括两个对称部分,前半部分称为编码器,将输入数据转换为潜在空间,而后半部分(解码器)则将这种潜在表示解码以重建数据。同样,GAN也由两个基本组件组成,如图8b所示。第一个是生成器,负责根据输入的随机噪声获取假样本,第二个是判别器,用于识别生成样本的真实性。这两个组件参与对抗性训练过程,逐步趋向于纳什均衡状态。
GAN在生成多样样本方面的独特优势,使其相较于传统的过采样数据增强方法更具优势,特别是在处理PHM任务中的数据不平衡问题时(Behera等人,2023)。目前已涌现出多种变体模型,包括变分自编码器(VAE)(Qi等人,2023)、深度卷积生成对抗网络(DCGAN)(Zheng等人,2019)、Wasserstein GAN(Yu等人,2019)等,根据其输入类型分为两类。第一类方法通常从一维输入(如原始信号)(Zheng等人,2019;Yu等人,2019;Dixit和Verma,2020;Ma等人,2021;Zhao等人,2021a,2020b;Liu等人,2022;Guo等人,2020;Wan等人,2021;Huang等人,2020,2022;Zhang等人,2020b;Behera和Misra,2021;Wenbai等人,2021;Jiang等人,2023)和频率特征(Ding等人,2019;Miao等人,2021;Mao等人,2019)生成数据,能够捕获信号中的固有时间信息,而无需复杂的预处理。例如,Dixit和Verma(2020)提出了一种改进的条件VAE,利用原始振动信号生成合成样本,即使在数据有限的情况下也能获得显著的故障诊断性能。在Mao等人(2019)的工作中,应用了快速傅里叶变换(FFT)将原始信号转换为频域输入给GAN,从而获得了更高质量的生成样本。另一方面,一些研究(Du等人,2019;Yan等人,2022;Liang等人,2020;Zhao和Yuan,2021;Zhao等人,2022;Sun等人,2021;Zhang等人,2022b;Bai等人,2023)结合了AEs和GAN在图像领域的优势,旨在利用二维时频表示生成相应的图像。例如,Bai等人(2023)采用跨时间返回图将时间序列数据转换为二维图像,作为Wasserstein GAN的输入,该方法减少了数据不平衡并提高了轴承故障的诊断准确性。
4.1.4 小结
表4总结了基于数据增强方法的各种解决方案,用于解决PHM中的小样本数据问题,包括每种技术所解决的具体问题以及每种方法的优缺点。显然,数据增强方法侧重于在数据层面缓解小样本数据挑战,包括标签训练数据不足、类别不平衡、数据不完整以及样本受到噪声污染等问题。其中,基于变换的方法主要通过在信号上施加变换来增加训练数据集的大小,但其有效性取决于原始信号的质量;而基于采样的方法在处理PHM任务中的不平衡问题上表现出色,SMOTE方法不仅擅长增加少数类样本的数量,还能使其组成更加多样化,但完善最近邻选择和加强对高度类别不平衡的适应性仍是开放的研究领域;虽然基于深度生成模型的数据增强方法灵活且有前景,能够生成不同工况下设备的样本,但还需要更深入的研究以结合PHM具体任务特性、评估生成数据的质量以及高效地训练生成模型。
4.2 迁移学习方法
传统深度学习模型假设训练数据和测试数据来自相同的域,然而,工况变化不可避免地导致数据分布差异。迁移学习(TL)是一种新兴技术,通过从相关域转移和重用数据或知识,降低对数据分布一致性的要求,从而解决目标域中小样本数据问题。迁移学习根据域和任务来定义,每个域 由一个特征空间和一个对应的边缘分布组成,而与每个域相关联的任务 包含一个标签空间和一个学习函数(Yao等人,2023)。
在PHM背景下,迁移学习可以简洁地定义为:给定一个源域 和及任务 ,以及一个目标域 及任务 ,目标是在 或 的设置下,利用从 和 中学习到的某些设备的知识来增强 中 的学习过程,并且源域的数据量远大于目标域。在现有文献中,迁移学习方法有多种分类标准。从实施阶段“迁移什么”划分,迁移学习可以分为三类:基于实例的迁移学习、基于特征的迁移学习和基于参数的迁移学习。其中,前两种属于数据层面,而后者则属于模型层面方法。这些分类在图9中得到了直观的展示。
4.2.1 基于实例的迁移学习
应用迁移学习的前提是源域包含足够的标签数据,而目标域要么缺乏足够的标签数据,要么主要由未标注数据组成。虽然最直接的方法是利用源域的样本为目标域训练模型,但由于两域之间固有的分布差异,该方法被证明是不切实际的。因此,在源域中找到并应用与目标域具有相似数据分布的标记实例是关键。为此,提出了各种方法来最小化分布差异,其中加权策略是最广泛使用的。
动态权重调整(DWA)是一种有效策略,其新颖之处在于根据源域和目标域样本对目标模型学习的贡献来重新加权。以著名的TrAdaBoost算法(Dai等人,2007)为例,该算法增加了与目标域相似的样本的权重,并降低了不相关源域实例的权重。TrAdaBoost在风力涡轮机(Chen等人,2021)、轴承(Miao等人,2020)和感应电机(Xiao等人,2019)的故障诊断中的有效性已得到验证。进一步地,学者们还将多目标优化(Lee等人,2021)和深度学习理论(Jamil等人,2022;Zhang等人,2020c)引入TrAdaBoost,以提高模型训练效率。然而,DWA需要目标样本的标签,否则,需要基于核映射技术的权重调整方法来估计关键权重参数,例如在再生核希尔伯特空间(RKHS)中匹配源域和目标域样本的均值(Tang等人,2023a)。Chen等人(2020)设计了一种基于核主成分分析的白余弦相似度准则,以确定源域和目标域中数据的权重参数,从而在有限数据和不同工作条件下提高了齿轮的诊断性能。更多研究可参见Liu和Ren(2020)、Xing等人(2021)、Ruan等人(2022)的研究。
4.2.2 基于特征的迁移学习
与在原始样本空间中寻找不同域之间相似性的基于实例迁移学习不同,基于特征的方法在源域和目标域之间的共享特征空间内进行知识迁移。如图10所示,基于特征的迁移学习在域适应和域泛化场景中得到了广泛应用,前者关注如何将知识从源域迁移到目标域,而域泛化旨在开发一个跨多源域的鲁棒模型,以能够泛化到任何新领域。基于特征迁移学习的关键在于通过操作(如基于差异的方法和特征约简方法)来减少不同域之间的边缘分布和条件分布差异,使模型能够在目标任务上实现优异的适应性和泛化能力(Qin等人,2023)。
基于差异方法的主要挑战在于如何准确地量化不同域之间的分布相似性,这依赖于特定的距离度量标准。表5列出了常用的度量标准(Borgwardt等人,2006;Kullback和Leibler,1951;Gretton等人,2012;Sun和Saenko,2016;Arjovsky等人,2017)以及应用于PHM任务(故障预测与健康管理)的算法(Yang等人,2018,2019a;Cheng等人,2020;Zhao等人,2020c;Xia等人,2021;Zhu等人,2023a;Li等人,2020b,c,2021a;He等人,2021)。其中,最大均值差异(MMD)计算再生核希尔伯特空间(RKHS)中实例均值之间的距离,而Wasserstein距离则通过考虑几何属性来评估概率分布的相似性,这两者都得到了广泛应用。例如,Yang等人(2018)设计了一个具有多核MMD的卷积适应网络,以最小化从实验室和真实机器故障数据中提取的特征分布之间的差异。Cheng等人(2020)引入的Wasserstein距离极大地增强了所提出模型的域适应能力。此外,Fan等人(2023a)提出了一种基于域的差异度量方法,用于在未见条件下的领域泛化故障诊断,这有助于模型平衡多个源域之间的域内和域间距离。另一方面,特征约简方法旨在自动捕获不同域之间的一般表示,主要使用无监督方法,如聚类(Michau和Fink,2021;He等人,2020a;Mao等人,2021)和自编码器(AE)模型(Tian等人,2020;Lu和Yin,2021;Hu等人,2021a;Mao等人,2020)。例如,Mao等人(2021)将时间序列聚类整合到迁移学习中,并利用从每个聚类获得的元退化信息进行轴承剩余使用寿命预测的时域适应。为了提高模型在不平衡和可迁移故障诊断中的性能,Lu和Yin(2021)设计了一种弱监督卷积自编码器(CAE)模型,以从多域数据中学习表示。Liao等人(2020)提出了一种深度半监督领域泛化网络,在未见速度工况下进行旋转机械故障诊断时表现出了优异的泛化性能。
4.2.3 基于参数的迁移学习
第三类方法是基于参数的迁移学习,假设源域任务和目标任务在模型层面上共享一定知识,这些知识被编码在源域上预训练的模型架构和参数中。这一方法的动机在于,从头训练一个模型需要大量数据和时间,而直接在目标域中迁移预训练的参数并进行微调则更为高效。因此,根据迁移参数在目标模型训练中的利用方式,主要有两种实现方式:全局微调(或冻结)和部分微调(或冻结),如图11所示。
全局微调(或冻结)意味着从源域迁移过来的所有参数使用目标域中有限的标记数据进行微调,或者在目标模型训练过程中这些参数会被冻结而不进行更新。相反,部分微调(或冻结)是选择性地对特定的高层或参数进行微调,同时保持低层参数与预训练模型一致。在这两种情况下,目标模型的分类器或预测器都需要使用随机初始化的参数进行重新训练,以与目标任务中的类别数量或数据分布相匹配。全局微调(或冻结)方法适用于源域和目标域样本具有高度相似性的情况,这样可以使用预训练参数从目标域中提取通用特征(Cho等人,2020;He等人,2019,2020b;Zhiyi等人,2020;Wu和Zhao,2020;Peng等人,2021;Zhang等人,2018;Che等人,2020;Cao等人,2018;Wen等人,2020,2019)。从预训练模型的大小和微调时间来看,全局微调和全局冻结策略分别适用于小型和大型模型。例如,He等人(Zhiyi等人,2020)提出,通过用少量目标训练样本对预训练参数进行全局微调,实现不同机器上轴承之间的知识迁移。在Wen等人(2020,2019)的研究中,研究人员应用了深度卷积神经网络(CNN)——ResNet-50(一个50层的CNN)和VGG-19(一个19层的CNN),这两个网络在ImageNet上进行了预训练并用作特征提取器,然后使用全局冻结方法训练目标故障诊断(FD)模型。相比之下,部分微调(或冻结)策略更适合处理域差异显著的情况(Wu等人,2020;Zhang等人,2020d;Yang等人,2021;Brusa等人,2021;Li等人,2021b),如复杂工况间的迁移(Wu等人,2020)和多模态数据间的迁移(Brusa等人,2021)。此外,Kim和Youn(2019)介绍了一种称为选择性参数冻结(SPF)的创新方法,其中只有每层的部分参数被冻结,从源域模型中显式选择对输出敏感的参数,从而在数据有限的情况下降低目标模型过拟合的风险。
4.2.4 小结
迁移学习框架打破了传统深度学习对训练和测试数据同分布的假设,通过从大量易于收集的数据中获取和迁移知识来弥补目标域中数据标记不足的问题。如表6所示,基于实例的迁移学习可以视为一种借用式增强,其中利用具有相似分布的其他数据集来丰富目标域中的样本。其中,数据加权策略在解决目标数据标记不足和数据不平衡问题上表现优越,但其高计算成本和对相似分布的高依赖性需要进一步优化。相比之下,基于特征的迁移学习通过学习通用故障表征来进行知识迁移,并有能力处理具有大分布差异的领域适应和领域泛化任务,如不同工况间的迁移(He等人,2020a)、不同部件间的迁移(Yang等人,2019a),甚至从模拟到物理过程的迁移(Li等人,2020b)。而且,基于弱监督的特征降维技术能够自适应地发现更好的特征表示,并在开放域泛化问题中展现出巨大潜力。最后,基于参数的迁移学习避免了目标模型从头开始训练,但这些参数的有效性取决于源域样本的数量和质量,可以考虑在多源域数据上进行模型预训练(Li等人,2023b;Tang等人,2021)。
4.3 小样本学习方法
数据增强和迁移学习方法都要求训练数据集包含一定数量的(从几十个到几百个不等)标记样本。然而,在某些工业场景下,特定类别(如早期故障或复合故障)的样本可能极其罕见且难以获取,每类只有少数几个样本(例如5-10个)用于深度学习模型训练,导致模型在这种“小样本”问题上的性能较差(Song等人,2022)。受人类从以前任务中学习和重用先验知识能力的启发,Jürgen Schmidhuber将这种能力命名为元学习(Schmidhuber 1987),提出了小样本学习(FSL)方法,旨在学习一个模型可以在仅有少量示例的情况下进行训练和快速适应任务。如图12所示,传统深度学习模型、迁移学习和小样本学习方法之间存在一些差异:
1)传统深度学习和迁移学习是在单一任务数据点上进行训练和测试,而小样本学习方法则在任务层面进行学习;
2)传统深度学习模型需要大量标记的训练和测试样本,迁移学习需要源域中大量的标记训练数据,而小样本学习方法则使用有限的数据进行元训练和元测试。
小样本学习任务遵循“N-way K-shot Q-query”协议(Thrun和Pratt 2012),随机选择N个类别,并从每个类别的每个任务中随机抽取K个支持样本和Q个查询样本。小样本学习的目标是在元训练期间将先前从多个任务中获得的知识与少量支持样本相结合,以预测元测试期间查询样本的类别。根据先验知识的学习方式,本文主要讨论基于度量、优化和属性的小样本学习方法。
基于度量的小样本学习通过测量样本相似性来学习先验知识,包含两个组成部分:特征嵌入模块负责将样本映射为特征向量;度量模块,用于计算相似性(Li等人,2021)。孪生神经网络是这一领域的先驱之一,最初由Koch等人在2015年提出,用于单样本图像识别(Koch等人,2015),使用两个并行的卷积神经网络(CNN)和L1距离来确定成对的输入是否相同。随后,Vinyals等人(2016)引入了带有注意力机制的长短期记忆(LSTM)网络,以有效评估多类相似性;Snell等人(2017)开发了原型网络来计算原型表示之间的距离;而关系网络(Sung等人,2018)则使用了自适应神经网络而不是传统函数。表7列出了这些代表性方法在嵌入模块和度量函数方面的差异。
根据目前研究,基于度量的小样本学习方法在PHM任务执行中主要有两种形式。第一种是利用固定度量(如余弦距离)来测量相似性,第二种是利用可学习的度量,如关系网络中的神经网络。例如,Zhang等人(2019)首次将基于宽核深度卷积神经网络的孪生网络引入滚动轴承的故障诊断中,该网络在不同工况下利用有限数据实现了优异的诊断性能。随后,基于孪生网络(Li等人,2022c;Zhao等人,2023;Wang和Xu,2021)、匹配网络(Xu等人,2020;Wu等人,2023;Zhang等人,2020e)和原型网络(Lao等人,2023;Jiang等人,2022;Long等人,2023;Zhang等人,2022c)的各种小样本学习算法被开发出来。Zhang等人(2020e)设计了一种结合选择性信号重用策略的迭代匹配网络,用于风力发电机的小样本故障诊断。Jiang等人(2022)开发了一种双分支原型网络(TBPN)模型,集成了时域和频域信号以提高故障分类的准确性。当测量来自不同领域的样本时,关系网络显示出比基于固定度量的FSL方法更优的性能,因此被广泛用于跨域小样本任务(Lu等人,2021;Wang等人,2020b;Luo等人,2022;Yang等人,2023a;Tang等人,2023b)。例如,Lu等人(2021)将旋转机械在有限数据下的故障诊断视为一个相似性度量问题,并将关系网络引入迁移学习框架作为解决方案。Luo等人(2022)提出了一种三重关系网络方法,用于执行跨部件的小样本故障诊断任务。Tang等人(2023b)设计了一种新颖的轻量化关系网络,用于高效执行跨域的小样本故障诊断任务。此外,为了解决由不同工况引起的领域偏移问题,Feng等人(2021)将基于相似性的元学习网络与领域对抗相结合,用于跨域的故障识别。
基于优化的FSL方法遵循“学会优化”的原则,以解决小样本带来的过拟合问题。具体来说,这些方法学习跨多个任务的全局初始化参数,使模型在元测试阶段能够迅速适应新的小样本任务(Parnami和Lee,2022)。以最知名的模型无关元学习(MAML)(Finn等人,2017)算法为例,基于优化的FSL通常遵循双循环学习过程,首先在内部循环中针对给定任务学习一个特定于任务的模型(基础学习器),然后在外部循环中跨任务分布学习一个元学习器,其中元知识嵌入在模型参数中,用作元测试任务中模型的初始化参数。MAML与多种使用梯度下降训练的模型兼容,使模型能够很好地泛化到新的小样本任务上,而不会过拟合。
最近的研究文献证明了MAML在PHM中的潜力,主要集中在元分类和元回归方法。对于元分类方法,目标是基于多个元训练任务学习一个优化的分类模型,该模型能够在元测试阶段以少量样本作为支持,准确地对新类别进行分类,通常用于异常检测(Chen等人,2022)和故障诊断任务(Li等人,2021c,2023c;Hu等人,2021b;Lin等人,2023;Yu等人,2021b;Chen等人,2023b;Zhang等人,2021;Ren等人,2024)。例如,Li等人(2021c)提出了一种基于MAML的元学习故障诊断技术,该技术利用已知工作条件的先验知识,对新工况下的轴承进行故障诊断。为了进一步提高元学习能力,设计了诸如任务序列MAML(Hu等人,2021b)和元迁移MAML(Li等人,2023c)等先进模型,用于少量样本的故障诊断任务,并提出了一种基于元学习的领域泛化框架,以解决资源不足和领域偏移问题(Ren等人,2024)。另一方面,元回归方法针对PHM中的预测任务,旨在从类似回归任务中获得元优化模型,使用有限的输入样本来预测连续变量(Li等人,2019,2022d;Ding等人,2021,2022a;Mo等人,2022;Ding和Jia,2021)。在2019年,Li等人首次探索了MAML在小型数据集剩余使用寿命(RUL)预测中的应用,设计了一个基于全连接神经网络(FCNN)的元回归模型,用于预测在不同切削条件下工具的磨损情况。此外,MAML还已被整合到强化学习中,用于退化条件下的故障控制,更多见解可参见Dai等人(2022)和Yu等人(2023)的研究。
还有一种独特的小样本学习范式,被称为“零样本学习”(Yang等人,2022),模型需要预测在元训练过程中未见过的类别。在这种设置中,由于缺少训练数据,需要辅助信息来弥补未见类别之间的信息差距,补充信息必须是有效、独特且具有代表性的,以便有效地区分不同类别,例如计算机视觉中图像的属性信息。如图13所示,未见动物的类别是通过迁移类间属性来推断的,如动物的形状、声音或栖息地的语义描述,这些属性的有效性已在许多零样本任务中得到了验证(Zhou等人,2023b)。
基于属性的小样本学习方法为PHM任务中的零样本问题提供了潜在解决方案。然而,由于视觉属性与传感器信号的物理意义不匹配,因此无法直接使用。为此,学者们一直在研究有效的故障属性。鉴于可以从维护记录中轻松获得与故障相关的语义描述,并且可以在实践中为特定故障进行定义,因此语义属性在当前研究中得到了广泛应用(Zhuo和Ge,2021;Feng和Zhao,2020;Xu等人,2022;Chen等人,2023c;Xing等人,2022)。例如,Feng和Zhao(2020)率先实现了基于故障描述属性转移的零样本故障诊断,这些属性包括故障位置、故障原因和后果,为目标故障提供了辅助知识。Xu等人(2022)设计了复合故障诊断的零样本学习框架,该框架的语义描述符可以为单一和复合故障定义不同的故障语义。Fan等人(2023b)提出了一种针对具有新故障模式的零样本故障诊断的属性融合迁移方法。尽管在描述驱动的语义属性方面取得了长足进步,但仍存在一些局限性,包括依赖专家见解和信息来源不准确。最近,在没有语义信息的情况下(称为非语义属性),Lu等人(2022)和Lv等人(2020)也进行了探索。Lu等人(2022)开发了零样本智能故障诊断系统,采用了从信号的时域和频域中提取的统计属性。
客官,球球再点个广告,再走吧~
点击左下角阅读原文,即可在线阅读论文。