从方法论上讲,用于执行 AD、FD 和 RUL 预测等 PHM 任务的技术可分为基于物理模型的方法、数据驱动的方法和混合方法(Lei 等人,2018 年)。基于物理模型的方法利用数学模型来描述故障机制和信号关系,代表性技术包括状态观测器(Choi 等人,2020 年)、参数估计(Schmid 等人,2020 年)和一些信号处理方法(Gangsar 和 Tiwari,2020 年)。然而,数据驱动方法涉及从传感器信号中手动或自适应提取特征,包括统计方法(Wang 等人,2022 年)、机器学习(ML)(Huang 等人,2021 年)和深度学习(DL)(Fink 等人,2020 年)。混合方法(Zhou 等人,2023a)结合了基于物理模型和数据驱动技术的元素。在这些方法中,基于深度学习的技术在从 AD 到 ME 的 PHM 任务中获得了广泛关注,这归功于它们在自动特征提取和模式识别方面相对于传统技术的明显优势。
图1描述了基于深度学习模型的智能PHM框架(Omri et al. 2020),其中步骤包括数据收集和处理、模型构建、特征提取、任务执行和模型部署。显然,状态数据是这一循环的基础,其数量和质量对DL模型在工业环境中的最终性能有着决定性的影响。然而,不同的工况下收集由各种异常和故障模式组成并带有精确标签的大量数据集既耗时又危险,而且成本高昂,这就导致了小样本数据问题,对模型在PHM任务中的性能提出了挑战。Dimensional Research最近进行的一项调查强调了这一窘境,调查显示96%的公司在实施工业ML和DL项目时遇到了小样本数据问题(D. Research 2019)。
图1 基于深度学习的智能PHM步骤(Omri et al. 2020)
值得注意的是,现有研究提供了有价值的指导,但它们尚未深入研究小样本数据的基本概念,在分析中表现出一定的局限性。例如,一些综述从宏观角度研究了小样本数据问题,而没有考虑 PHM 任务的应用特点(Chahal 等人,2021 年;Adadi,2021 年;Cao 等人,2023 年)。然而,有些研究仅仅集中于用于解决 FD 任务中的小样本数据难题的特定方法(Pan 等人,2022;Zhang 等人,2022a;Li 等人,2022b),缺乏对 AD 和 RUL 预测任务解决方案的系统研究,严重限制了智能 PHM 的发展和工业应用。因此,有必要对 PHM 领域的小样本数据挑战进行深入探讨,为智能模型在工业领域的成功应用提供指导。
本综述是对解决PHM领域中的小样本数据挑战这一需求的直接回应,旨在澄清以下三个关键问题:
这些基本问题将我们的工作与现有调查区分开来,并展示了我们的主要贡献:
(1)首次研究了智能PHM所面临的小样本数据挑战,并详细分析了其定义、原因和影响;
(2)概述了解决小样本数据问题的各种先进方法,并讨论了每类PHM任务的具体问题和剩余挑战;
(3)总结了常用的基准数据集和实验设置,为开发和评估PHM中的数据高效模型提供参考;
(4)最后,指出了未来小样本数据研究的发展方向。
因此,本文按照图3所示的层次结构进行组织。第2节讨论了PHM领域小样本数据的定义,并分析了相应的原因和影响。第3节全面概述了具有代表性的方法,包括数据增强(DA)方法(第3.1节)、迁移学习(TL)方法(第 3.2 节)和少样本学习(FSL)方法(第 3.3 节)。第4节讨论了PHM应用中的问题。第5节总结了用于模型评估的数据集和实验设置。最后,第6节给出了潜在的研究方向,第7节得出结论。此外,表2总结了本文中使用的缩略语。
DL模型在执行PHM任务时的出色表现与丰富而高质量的标注数据这一前提密不可分。然而,这一假设在工业领域不太可能得到满足,因为小样本数据往往是常态,它具有独特的数据分布,可能导致模型学习困难。因此,本节首先分析了小样本数据在 PHM 中的定义、原因和影响。
在回答“什么是小样本数据”问题之前,让我们先回顾一下“大数据”这个相对的术语,自2012年诞生以来,学者们对它具有各种不同的解释。Ward等人认为大数据是一个“描述使用一系列技术存储和分析大型或复杂数据集”的短语。另一种观点,如文献Suthaharan (2014)所述,侧重于数据的数量、连续性和复杂性。在各种定义中,被广泛接受的是“5V”属性:数量、种类、价值、速度和真实性(Jin et al. 2015)。
经过长期研究,一些专家发现,大数据并非无处不在,小样本数据范式已成为人工智能领域值得深入研究的新领域(Vapnik 2013; Berman 2013; Baeza-Yates 2024; Kavis2015)。Vapnik (2013) 是这一领域的先驱之一,他将小样本数据定义为“训练样本数与学习机的Vapnik-Chervonenkis(VC)维数之比小于20”的情况。J. Berman(2013) 认为,小样本数据用于解决基于来自一个机构的有限和结构化数据的离散问题。另一项研究将小样本数据定义为“数据的数量和格式使其可访问、可提供信息和可操作”(Baeza-Yates 2024)。在工业背景下,Kavis (2015)将小样本数据描述为“物联网产生的一小批特定属性,这些属性通常是一小批传感器数据,如温度、风速、振动和状态”。
传感器和工业互联网技术的飞速发展简化了收集设备监控数据的过程。然而,目前只有大型企业才有能力大规模采集数据。由于收集到的数据大多是正常样本,异常或故障数据有限,因此无法为模型训练提供足够的信息。如图4所示,分析了PHM面临小样本数据挑战的四个主要原因。
在部署智能 PHM 系统时,投资回报率(ROI)是企业最关心的问题。如图 4 第一象限所示,大量投资主要来自两个方面:首先,
(i)工厂需要对现有的旧设备进行数字化升级,以收集监控数据。
(ii) 其次,数据标注和处理需要人工操作和领域专业知识。
虽然目前传感器和标注外包的成本相对较低,但在众多机器上安装传感器和处理 TB 级数据仍超出了大多数制造商的能力范围。
在第二象限中,这一因素突出表现在以下方面:
(i) 数据的敏感性、安全性或私密性通常会导致严格的访问控制,例如数据收集军事装备。
(ii) 在数据传输和数据共享方面,个人、企业和国家都需要遵守法律和监督条例,尤其是在发布《通用数据保护条例》(Zarsky 2016)之后。
图 4 第三象限描述的内容包括
(i) PHM 中的数据分布本身在不同的生产任务、机器和操作条件下显示出显著的可变性(Zhang 等,2023 年),因此不可能在所有潜在条件下收集数据。
(ii) 在高辐射等特殊服务环境中采集数据具有固有风险。
(iii) 设备从健康状态发展到最终失效需要经历一个漫长的过程。
随着设备的集成度越来越高,相关性和耦合效应不断增强。如图 4 第四象限所示:耦合存在于 (i) 多个组件、(ii) 多个系统和 (iii) 不同过程之间。这种相互作用通常具有非线性、时间可变性和属性不确定性等特点,进一步增加了数据采集的复杂性。
标注的高质量数据的可用性仍然有限,这对执行 PHM 任务产生了一些影响,主要包括数据和模型层面(Wang 等,2020a)。如图 5 左侧所示,数据层面的影响主要包括数据不完整和分布不平衡,进而导致模型层面的泛化效果不佳。本节将以 FD 任务为例,通过相应的评价指标分析这些影响。
数据完整性是指“数据中包含的信息的广度、深度和范围”(Chen等人,2023a)。然而,由于故障类别或样本量的限制,所获得的小样本数据集通常表现出监督信息密度低的特点。此外,不完整数据中的缺失值和标签或异常值加剧了有价值信息的稀缺性。PHM中的数据不完整性可以通过以下指标来衡量:
第二个影响是数据分布不平衡。包含样本数量较多或较少的故障类别分别称为多数类和少数类。根据不同类之间或同一类内部存在的不平衡程度,相应地会出现类间不平衡或类内不平衡现象。考虑一个包含两种不同故障类型的数据集,每种类型包含两个子类,类间不平衡度和类内不平衡度可以量化为(Ren等人,2023):
3.3.3 模型泛化能力差
从技术上讲,监督深度学习的主要原理是构建一个模型 ,该模型从训练集 中学习潜在模式,并尝试预测先前未见过的测试数据 的标签。训练集上的经验误差 和测试集上的预期误差 可以通过分别计算真实标签 和预测标签 之间的差异来得出。这两个误差之间的差异,即泛化误差 ,通常用于衡量训练模型在测试集上的泛化能力。泛化误差受模型复杂度和训练数据大小 的限制,如下所述(LeCun等人,1998):
其中 是一个常数, 是一个系数,其值范围为[0.5, 1.0]。上述方程表明,参数 决定了模型的泛化能力。当 足够大时,具有特定 的模型 的将趋向于0。然而,数据量小不完整或不平衡样本往往会导致G 较大,泛化能力较差。
原文获取:
点击文章左下角阅读原文获取文章原文。
客官,球球再点个广告,再走吧~
点击左下角阅读原文,即可在线阅读论文。