论文题目:
Review of resampling techniques for the treatment of imbalanced industrial data classification in equipment condition monitoring
论文期刊:Engineering Applications of Artificial Intelligence
论文日期:2023年8月
论文链接:
https://doi.org/10.1016/j.engappai.2023.106911
作者:Yage Yuan , Jianan Wei , Haisong Huang
机构:
Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China
作者邮箱:
魏建安,工学博士,贵州大学特聘教授,硕导,贵州省“产业技术创新副总”,研究方向为制造大数据与制造信息系统、航空航天领域关键零部件智能制造与运维、医工领域数据与图像处理等。主持国家级、省部级课题4项;发表相关领域论文近30篇,其中一作或通信发表SCI 1区Top论文8篇、2区论文1篇(综述),单篇最高被引150余次;科学出版社出版工业大数据与智能运维领域学术专著1部;授权国家发明专利3项;担任《航空动力学报》(EI)、《工业工程》、《数据采集与处理》、《中国测试》等领域知名期刊的青年编委;担任中国图学学会(CGS)可视化与认知计算专委会委员、中国图学学会(CGS)青年工作委员会委员、中国机械工程学会(CMES)工业大数据与智能系统分会专委会委员、中国图形图像学会(CSIG)遥感图像专委会委员、中国自动化学会(CAA)动态学习与智能医学专委会(筹)专委会委员、全国材料与器件科学家智库-电子信息材料与器件专家委员会常务委员等学术兼 职。
黄海松,工学博士、教授,博士生导师,贵州大学现代制造技术教育部重点实验室常务副主任、贵州省百层次创新人才,贵州省省管专家,贵州省科技拔尖人才、重庆市“巴渝学者讲座教授”,中国机械工程学会工业大数据与智能系统分会专委会委员、中国计算机学会工业控制专委会委员、《计算机集成制造系统》理事会理事、中国图学学会数字孪生专委会委员,以第一完成人或者主要完成人获得省部级科技进步奖一、二、三等奖励5项。
3.1 小样本不平衡下的噪声
3.2 小样本下的类内类间不平衡
3.3 小样本下的多类不平衡
3.4 时间序列下的小样本
4.1 重采样技术
4.1.1 欠采样技术
4.1.2 过采样技术
4.1.3 混合采样技术
4.2 生成对抗网络
5 重采样技术在工业不平衡数据处理中的应用
6 工业不平衡异常监测中的困难和挑战问题
7 总结
关键词:故障诊断;不平衡分类问题;小样本问题;重采样技术
制造业在国家经济中占据着举足轻重的位置,是国家立基之本、兴国之器、强国之基[1]。近年来,中国已将“智能制造工程”作为《中国制造2025》的五大重点工程之一,全力推动制造业的高速发展[2]。德国《国家工业战略2030》指出,德国在机械与设备制造、汽车及零部件制造等十个关键工业领域具有领先地位,并提出基于数据创新的一系列前沿技术将重塑各行各业,从根本上颠覆现有工业体系,彻底改变传统的工业活动和制造方法,重新定义制造业价值链[3]。《先进制造业美国领导力战略》设立了三大目标:开发和转化新制造技术、培养制造业劳动力、提升制造业供应链水平。其中之一就是大力发展未来智能制造系统[4]。机械设备作为制造业发展的核心基础,其在航天器、军工品、集成芯片等高精尖行业,以及汽车、火车、地铁等日常交通行业中具有广泛的应用[5]。随着智能制造技术的发展,机械设备正朝着高精度、高效率、自动化和复杂化的方向发展[6]。因此,各种机械设备的结构变得越来越复杂,且随着需求的增加,机械设备将长时间在恶劣工况下运行。这将导致其性能和健康状态逐渐退化,甚至最终完全失效。一旦机械设备发生故障,轻则降低生产效率、影响产品质量,重则可能造成人员伤亡等重大安全事故。因此,及时对机械设备进行状态监测和可靠的故障诊断是非常必要的[7]。
从本质上讲,机械设备的状态监测和预测是一个数据采集、特征提取和模式识别的过程[8]。通过在机械设备上部署力学、温度、振动、加速度等传感器,可以采集关键零部件的状态信息,然后进行手动或自动的特征提取,最后将特征数据输入分类或回归模型,实现关键零部件的故障预测和寿命预测,为决策者制定维护策略提供重要支持。然而,在实际工业生产中,机械设备发生故障的频率远低于正常状态,并且不同类型的故障发生频率也有所不同[9]。因此,故障状态下收集的数据非常有限,而正常状态下可以获得大量数据,这就导致了数据不平衡的问题[10]–[12]。此外,系统本身也可能存在不平衡问题,这可能由外部扰动、故障或恶意攻击等多种因素引起。在网络控制系统中,这些因素可能导致系统性能下降、稳定性受到威胁,甚至引发系统崩溃。因此,为应对系统不平衡问题,研究人员开发了能够有效应对各种不良因素影响的滤波器设计方法[13]。目前,大多数故障诊断研究都基于数据平衡,并依赖大量的标记数据。针对这些问题,近年来出现了一种有希望的解决方案——无监督跨域诊断方法[14],它不再要求数据集具有平衡的标签分布,也不需要大量已标记的数据。相反,该方法通过在不同领域或来源之间进行知识迁移和特征学习,可以有效地进行跨域故障诊断[15]。这一方法为故障诊断研究开辟了新的途径,并有望在未来应用中发挥重要作用。
然而,在工业场景中,收集的数据除了具有有限的不平衡特性外,还可能呈现以下特点:
近年来,针对不平衡问题的研究出现了许多方法,但针对特定领域中的挑战性问题,如噪声、类内类间不平衡、多类不平衡和时间序列不平衡,相关的综述文献相对较少[19]。这些问题在工业故障监测中具有重要的实际应用意义,因此,对重采样技术在智能故障诊断中的综述以及在解决不平衡问题方面的应用,具有重要的研究价值。我们的研究探讨了这些方法在不平衡工业故障监测中的应用。我们发现,应用重采样技术可以改善故障监测系统对少数类别的检测能力,减少误报率,并提高整体故障诊断的准确性。通过采用合适的特征提取和分类算法,结合重采样技术,可以有效解决工业场景中的不平衡问题,提高故障监测系统的性能和稳定性。通过对这些工作的总结和讨论,我们旨在促进对不平衡数据在工业故障监测中应用的深入理解,并为实际应用中的智能故障诊断提供有益的指导。我们的综述强调了重采样技术在工业故障诊断中的重要性,并对解决不平衡问题提供了详尽的文献回顾和分析。我们相信,这些工作将有助于推动该领域的进一步研究,并为实际应用中的智能故障诊断提供宝贵的参考和指导。
3.1 小样本不平衡下的噪声
图1 工业监测数据中可能存在的噪声问题
尽管目前有许多方法可以处理噪声问题,但在小样本不均衡条件下的噪声处理仍然鲜有涉及。
图2 使用SMOTE技术处理不平衡工业数据时噪声的影响[26]
在机械设备的故障诊断中,数据的类内和类间不平衡问题对诊断结果有着深远的影响,具体表现如下:
因此,解决数据的类内和类间不平衡问题对于提高故障诊断算法的性能和可靠性具有重要意义。在小样本条件下,解决这些不平衡问题的策略通常包括以下几种:
由于工况的复杂性和环境的恶劣性,机械设备的多个部件可能会同时发生故障[29]。在实际的工业场景中,不平衡的多类数据问题尤为常见,如图4所示。在处理多类问题时,可能需要同时处理多个少数类或多个多数类,这些类中的样本在某些特征上的相似性可能较高,从而在特征空间中形成重叠区域。在小样本问题中,由于少数类样本相对于多数类样本非常稀疏,这进一步增加了类重叠的概率[30]。类重叠会导致分类决策边界的偏移,增加分类错误的可能性,降低分类器的准确性,并使边界更加模糊,增加分类结果的不确定性和不可靠性。在实际的设备故障诊断过程中,边界类的样本往往更加重要。边界类指的是那些位于不同类别之间或接近其他类别的样本。这些样本可能具有关键的特征或属性,对于故障诊断和预测提供了重要的信息。因此,解决多类不平衡问题成为了至关重要的任务。
图4 工业监测数据中的多类不平衡问题及其对分类建模的影响
与类内类间不平衡问题对故障诊断产生的影响类似,多类不平衡对故障诊断的影响也包括误判、漏检、虚假警报、不必要的维修、准确性下降和数据样本偏倚。解决多类不平衡问题的方法通常包括:
图5 PHM2010 C1铣刀的生命周期磨损曲线
图6 工业异常检测中的典型时间序列不平衡问题(以PHM2010 C1切削场景为例)
因此,以刀具磨损阶段的识别或磨损值预测作为例子,展示了典型的时间序列和类内不均衡问题。然而,时间序列数据的特殊性使得传统的不平衡数据分类方法不完全适用,并且在序列数据中区分少数类和噪声变得更加困难,类别之间的重叠问题也更加复杂。因此,时间序列数据的不平衡性对故障诊断研究产生了巨大影响。
目前,为了解决时间序列数据的不平衡问题,重采样技术被广泛应用。此外,还可以采用以下两种方法:
这两种方法可以有效地解决时间序列数据中的不平衡问题,从而提高故障诊断模型的准确性和可靠性。
图7 不平衡分类的典型方法
针对数据不平衡分类问题,数据预处理中的重采样技术是应用最广泛的方法之一[9]。重采样通过复 制或合成少数类样本,或删除多数类样本,来改善样本分布的平衡性。其主要优点是不会改变后续分类器的结构,且可在分类算法的学习训练之前独立进行[37]。重采样技术主要分为三类:欠采样技术、过采样技术以及混合采样技术。
为了解决随机欠采样方法的不足[38],许多研究人员对删除条件进行了改进。例如,Edited Nearest Neighbor(ENN)[39]通过计算多数类样本的最近邻分布情况来决定哪些样本需要删除,即当某多数类样本的近邻域中其他类别的样本占多数时,便将其删除。然而,ENN能删除的多数类样本数量有限,可能无法从根本上解决数据的不平衡问题。Neighborhood Cleaning Rule(NCL)[40]在ENN的基础上,进一步考虑少数类样本的近邻分布,以删除更多的多数类样本。NCL不仅删除周围嘈杂的多数类样本,还删除少数类样本周围的嘈杂多数类样本。Tomek-Links欠采样法[41]通过构建不同类别样本的Tomek Links对(如果训练集中不同类别样本a和b之间的欧式距离小于任意其他样本之间的欧式距离,则称其为Tomek Links对)来删除多数类样本。但Tomek-Links算法仅考虑全局样本之间最近的边界实例,忽略了潜在的局部重叠实例。因此,Dai等人[42]提出了一种多粒度重标记欠采样算法,该算法在局部粒度空间中充分考虑数据集的局部信息,检测数据集中潜在的局部重叠实例,并通过全局重新标记的索引值删除这些重叠的多数类实例,从而有效扩大了Tomek-Links的检测范围。此外,Lin等人[43]提出了两种基于聚类算法的欠采样技术,这些方法依据k-近邻(K-NN)规则选择聚类中心或聚类中心的最近邻样本来代表多数类样本。尽管这些算法在一定程度上克服了随机欠采样技术容易删除重要信息的问题,但可能会破坏原始样本的分布。因此,Ng等人[44]提出了一种基于多样化敏感性的欠采样技术,该方法通过灵敏度测量合理选择可修剪的样本,最大限度保留原始数据集的分布信息。然而,在工业场景中,实际收集的数据往往不仅仅是简单的两类不平衡数据,还可能包含噪声、类内类间不平衡、多类不平衡等一系列复杂的不平衡问题。近年来,许多研究人员提出了针对这些复杂问题的欠采样方法,以更好地应对工业场景下的数据挑战。
Kang等人[45]首次将噪声滤波器与欠采样方法相结合。其特点是在训练分类器之前,先过滤掉少数类样本中的噪声实例。Ruisen等人[46]则提出了一种基于bagging的算法,该算法结合了Xgboost分类器和欠采样方法,用于解决二分类问题中的数据不平衡及噪声问题。为避免数据不平衡导致的模型误差,该方法通过带放回的随机抽样生成多个平衡的训练集;同时,为了减轻噪声对模型的误导,引入了Tomek Link方法,以消除作为噪声主要来源的跨类重叠实例。
为了解决欠采样方法可能导致信息样本丢失的问题,NG等人[47]提出了基于散列的欠采样集成(HUE)方法。该方法通过散列技术将多数类样本划分为多个子空间,每个子空间对应一个训练子集,包含来自该子空间的多数 样本以及来自周围子空间的少数样本。这些训练子集用于训练一个包含所有少数类样本的分类与回归树分类器的集 合。针对大规模高度均衡数据集中欠采样技术易导致多数类有用信息丢失且模型难以泛化的问题,Ren等人[48]提出了一种具有两种新方案的均衡集成方法(EASE)。首先,该方法通过均衡欠采样方案为每个基分类器生成一个平衡的数据集,减少类不平衡对基分类器的影响;其次,设计了一个加权整合方案,以基分类器在原始不平衡数据集上获得的G-mean分数作为权重。这样,性能较好的基分类器能够主导最终分类决策,同时适应不同规模的不平衡数据集,并避免极端不良情况的发生。此外,Liu等人[49]提出了一种基于球形聚类划分和密度峰值优化的类不平衡数据分类算法(DPBCPUSBoost)。该方法首先利用密度峰值信息为多数类样本分配抽样权重,将具有“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重。通过迭代欠采样,第一次迭代时按照抽样权重对多数类进行欠采样,而在后续迭代中根据样本分布权重进行欠采样,并将欠采样后的多数类样本与少数类样本组成临时训练集以训练弱分类器。最终,结合样本的密度峰值信息与类别分布,为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。现有的大多数欠采样方法主要关注数据整体结构特征的保留或通过势能估计来保留负类的整体结构特征,但未充分考虑梯度淹没和正样本经验表示不足的问题。为此,Huang等人[12]提出了一种解决数据不平衡问题的新范式。该方法通过信息丰富的欠采样策略应对梯度淹没问题,恢复神经网络在不平衡数据下的性能。此外,通过边界扩展策略,结合线性插值和预测一致性约束,缓解了正样本经验表示不足的问题。尽管许多欠采样方法已经被提出,但现有研究仍主要集中在类间不平衡问题,对于类内不平衡问题的研究相对较少。
Vuttipittayamongkol等人[50]提出了一种基于近邻域的欠采样方法来处理类重叠数据。他们引入了四种不同的基于K-NN的方法,以探索单个实例的局部环境,并确定应消除的重叠实例。然而,基于最近邻的方法只关注局部域内实例的局部相似度,未能考虑全局相似度。为了解决这一问题,Dai等人[51]提出了一种新颖的Schur分解类重叠欠采样方法(SDCU)。SDCU试图通过全局相似性来识别潜在的重叠实例,并首次使用矩阵分解方法处理类不平衡数据中的类重叠问题。近年来,研究人员发现,将Tomek-Link算法与采样技术相结合,可以有效减少数据中的类重叠,消除大部分难以区分的实例,从而提高分类算法的精度。然而,Tomek-Links欠采样算法仅考虑全局范围内彼此最近的边界实例,忽略了潜在的局部重叠实例。当少数类样本数量较少时,欠采样效果不理想,分类模型的性能提升有限。为此,Dai等人[52]提出了一种多粒度重标记欠采样算法(MGRU)。该算法在局部粒度子空间中充分考虑数据集的局部信息,检测出潜在的局部重叠实例,然后根据全局重新标记的索引值消除重叠的多数类实例,从而有效扩大了Tomek-Links的检测范围。随着元启发式算法表现出强大的优化能力,一些研究人员将其与欠采样技术结合,来解决不平衡数据中的类重叠问题。Soltanzadeh等人[53]提出了一种基于元启发式方法的欠采样技术。不同于大多数现有的欠采样方法,该方法旨在选择多数类样本的最佳子集,以同时处理不平衡和类重叠问题,同时避免过度删除多数类样本,尤其是在重叠区域。生成的解决方案通过分类器进行评估,并在进化过程中不断优化。
Claudia等人[54]提出了一种定制化实例随机欠采样(CIRUS)方法,旨在解决多类不平衡问题。该方法通过计算每个多数类的紧凑集,以获得类的结构化表示。然后,利用迭代方式从紧凑集中随机选择一个实例并将其加入结果集中,直到结果集中多数类实例的数量与少数类实例的数量相同。
虽然欠采样技术在缓解数据集不平衡性方面具有一定的效果,且算法复杂度较低,但在应对噪声、类内类间不平衡、多类不平衡及时间序列不平衡问题时仍存在以下几点局限性:
编辑:赵学功
校核:李正平、陈凯歌、赵栓栓、曹希铭、白亮、陈少华、任超
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除
点击左下角阅读原文,即可在线阅读论文。