论文链接:通过点击最左下角的阅读原文进行在线阅读及下载。
论文题目:Meta-Learning With Distributional Similarity Preference for Few-Shot Fault Diagnosis Under Varying Working Conditions
a: the College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, PR China;
b: the Department of Engineering, University of Ferrara, 44122 Ferrara, Italy;
c: the Department of Chemical and Biological Engineering, Hong Kong University of Science and Technology, Hong Kong
随着智能制造的发展,迫切需要可以处理复杂工业应用场景的智能化故障诊断手段,以降低运营成本,避免由于生产系统非计划停机而造成的人员伤亡和重大经济损失。目前已涌现出大量的故障诊断方法,尤其是数据驱动的方式,充分利用海量数据,在许多领域取得巨大成功。
在小样本问题驱动下,很多可行策略被提出,比如数据增强方法,基于度量方法,迁移学习方法以及元学习方法。数据增强方法旨在生成与已知样本相似的合成样本,从而有效地扩展训练数据集。目前,这些基于数据增强的方法依赖于是否可以捕捉复杂的数据分布,在推广到小样本类别上依旧具有一定挑战。基于度量的方法在监督学习中引入度量嵌入模块,旨在利用先验的度量信息,减轻对数据量的要求。在多工况条件下,将学习到的度量信息迁移到新域是一项重大挑战。迁移学习策略旨在通过知识迁移过程来探索源域数据集中的信息,为目标域数据集构建模型。元学习策略通过关注如何让模型获得学习能力而不是学习模型本身,以另一种范式创造性地解决少样本问题。在智能制造领域,已有学者提出了利用元学习策略训练模型来解决小样本和跨域问题[27],[28]。
本文研究了变工况下基于元学习的小样本故障诊断问题。元学习从现有的相关任务中提取出与任务无关的知识,并用于提高模型在新任务上的学习性能,在图像识别领域已有成果应用。在本文中,不同工作条件下的故障诊断可以看作是不同的学习任务,其中每个任务由于需要识别多种故障模式,因此任务本身都是一个多分类问题。本文假设在几种工作条件下有足够数量的标记故障数据,而在另一个感兴趣的工况条件下只存有少量的标记或未标记故障数据。最终目的是通过所提策略,快速学习适用于新工况的故障诊断模型。
近年来,已有一些学者提出的将元学习策略应用于变工况小样本故障诊断的开创性工作。例如,一种基于模型无关元学习 (Model-Agnostic Meta-Learning ,MAML) 的模型被提出,用于电机轴承故障诊断 [32];一种基于任务排序的元学习方法,通过将元训练任务从易到难进行排序[33],提高模型诊断精度。
由于变工况下的小样本故障诊断需要考虑分布偏移问题,因此本文从任务生成的角度重点研究了元学习的分布偏移鲁棒性。提出了一种具有分布相似性偏好的无监督跨任务元学习策略 (Meta-Learning strategy with Distributional Similarity Preference, MLDSP),其核心是分布距离加权机制。与元学习方法中已有的随机生成元训练任务的策略不同,与目标样本分布更相似的源样本在任务生成中获得更高的权重。该策略会生成一个更合适的元训练任务集,保证训练任务足够多样化的同时,由于大多数样本来自具有相似分布的源任务,使得模型更容易学习。所提出方法中使用最大均值差异 (Maximum Mean Discrepancy,MMD) 指标来衡量分布距离,并使用 MAML 进行变工况下的小样本故障诊断。使用两个公共数据集对轴承故障诊断进行了验证和比较。结果表明,本文所提方法在变工况下的模型表现优于其他的小样本故障诊断方案。因此,具有分布相似性偏好的元学习被证明在域适应和域泛化方面更有效。具体而言,本研究的具体贡献总结如下:
1.提出了一种基于分布相似性偏好的无监督跨任务元学习方法。方法探索了通过基于 MMD 的分布距离加权机制来生成元训练任务,这可以产生适当的元训练任务集,从而增强域适应和域泛化能力。
在实际应用中,工程师很难及时检测到机器故障,例如某些部件的老化和磨损。通过收集设备的状态数据来预测机器的故障状态是一种可行的解决方案。然而,大多数工程系统的负载和工况是变化的,不同工况数据将在不同时刻内收集到。假定样本从S个历史工况中采集,被表示为
图1 元学习通用框架
从多个工况中学习到的模型并不总是适合特定的工况,因为这种模型是使用大量任务训练的,随后只用有限样本对模型进行微调并不能带来令人满意的性能。为了避免元学习训练任务与后续对模型微调的小样本之间可能出现的不匹配情况,提出了一种具有分布相似性偏好的元学习方法。主要有两个步骤。
步骤1:使用MMD计算历史工况样本与新工况小样本之间的分布距离。基于计算出的距离,提出一种权重采样策略。
步骤2:从历史数据中采样构建训练任务,训练元学习模型,然后将学习到的模型微调以适应只有有限样本的新工况。
给定历史数据集
关于新工况样本
假定
紧接着,第i个工况样本的样本权重可以得出:
最后,基于每个工况得到的样本权重,轮盘赌算法被用于选择样本。
1)由于
2)计算第 i 个工况被选择的累积概率。
3)随机生成长度为S的数组r,数组的值在0到1之间。数组根据元素的值从小到大进行重新排列。在遍历数组时,如果累积概率
4)通过重复上述操作
MAML训练过程的表示如图2所示。为了在小样本学习任务中获得通用的学习器,用于训练模型的每个小样本学习任务都考虑了少量的标记样本,模型迭代训练次数非常少,以防止过拟合问题。模型在不同任务上的损失函数用于更新模型的初始参数。
图2 MAML训练框架
在历史数据上对模型进行元学习训练后,在新工况下,在样本有限的支持集上对具有已优化初始化参数的模型进行微调。
实验使用了凯斯西储大学和渥太华大学的轴承数据集进行方法验证。实验引入8种工况来模拟多工况,并选择轴承的内圈故障、外圈故障、滚动体故障作为模型检测对象。在CWRU轴承实验设定的四种工况下,均考虑了七个SKF6205-2RS轴承的振动信号,包括三个故障直径的内圈故障轴承、三个故障半径的外圈故障轴承和正常轴承。在渥太华轴承实验定义的四种工况下,考虑ER16K轴承的振动信号,包括三种不同的变速模式,每种变速模式下有三种不同的变速幅度。本实验中的样本,均是通过长度为1000的滑动窗从连续的一维振动信号采样得到,在每种轴承工作状态下收集100个样本。所有振动信号都经过归一化处理。
表1 实验工况描述
表2 实验任务设置
7.2 分布距离测度选择
图4 组合任务下数据集分布MMD值和模型诊断精度
7.3 变工况下方法有效性验证
实验从七个工况的样本来构建元训练任务,而剩余工况被视为新工况。将新工况的故障分类任务视为小样本任务,而新工况中的故障类别被视为新类别。详细任务设置如表2所示。为了评估所提出的方法,提供了几种元学习方法作为基线,包括MAML、原型网络(Prototypical Network,PN)、孪生网络(Siamese Network,SN)、域对抗神经网络(Domain-Adversarial Neural Networks, DANN)和随机森林(Random Forest,RF)。方法性能如表3和图5所示。
表3 实验任务设置
图5 任务1和任务5上不同小样本学习方法性能
从表3和图5可以看出,任务5到任务8的模型诊断准确率低于任务1到任务4。这是由于时变速度工况的数据分布比固定速度工况下的数据分布更复杂。时变速度的工况近似于无数个的定速工况,对模型的泛化能力带来更多挑战。图6显示所提方法在任务1的训练过程中的预测精度。可以注意到,在10样本任务下的训练出的模型比5样本训练任务的模型更稳定。此外,在相同的参数设置下,所提方法训练的模型比MAML更快地适应新工况。
图6 所提方法和MAML在3-way-5-shot和3-way-10-shot实验设置下的模型训练过程
这项工作使用分布差异度量评估了新工况小样本和历史工况样本之间的相关性,未来将考虑利用现实世界应用的知识来评估工况的相关性。其次,在元学习中,基模型基于CNN架构,这可能没有物理意义。在小样本故障诊断中,如果可以根据特定场景设计可解释模型,那么从训练好的模型中提取的特征可以更好地用于不同的小样本学习任务。