综述 | 设备状态监测中处理工业数据分部不平衡的重采样技术(上)
本期给大家推荐魏建安教授的设备状态监测中处理工业数据分部不平衡的重采样技术综述。在工业生产中,机器设备大部分时间处于正常运行状态,故障发生的时间极为短暂,导致故障数据稀缺,数据集普遍存在不平衡问题。随着制造业的快速发展,复杂设备的故障数据往往伴随噪声和多重不平衡现象,给故障诊断带来巨大挑战。本文将从数据预处理、特征提取和分类器改进三个方面,系统分析当前不平衡数据分类的主要方法,并探讨这些方法在工业场景中的应用及未来研究方向。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Review of resampling techniques for the treatment of imbalanced industrial data classification in equipment condition monitoring论文期刊:Engineering Applications of Artificial Intelligence论文日期:2023年8月论文链接:https://doi.org/10.1016/j.engappai.2023.106911作者:Yage Yuan , Jianan Wei , Haisong Huang机构:Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China作者邮箱:gs.ygyuan22@gzu.edu.cnjawei@gau.edu.cnhshuang@gzu.edu.cn作者简介:魏建安,工学博士,贵州大学特聘教授,硕导,贵州省“产业技术创新副总”,研究方向为制造大数据与制造信息系统、航空航天领域关键零部件智能制造与运维、医工领域数据与图像处理等。主持国家级、省部级课题4项;发表相关领域论文近30篇,其中一作或通信发表SCI 1区Top论文8篇、2区论文1篇(综述),单篇最高被引150余次;科学出版社出版工业大数据与智能运维领域学术专著1部;授权国家发明专利3项;担任《航空动力学报》(EI)、《工业工程》、《数据采集与处理》、《中国测试》等领域知名期刊的青年编委;担任中国图学学会(CGS)可视化与认知计算专委会委员、中国图学学会(CGS)青年工作委员会委员、中国机械工程学会(CMES)工业大数据与智能系统分会专委会委员、中国图形图像学会(CSIG)遥感图像专委会委员、中国自动化学会(CAA)动态学习与智能医学专委会(筹)专委会委员、全国材料与器件科学家智库-电子信息材料与器件专家委员会常务委员等学术兼 职。黄海松,工学博士、教授,博士生导师,贵州大学现代制造技术教育部重点实验室常务副主任、贵州省百层次创新人才,贵州省省管专家,贵州省科技拔尖人才、重庆市“巴渝学者讲座教授”,中国机械工程学会工业大数据与智能系统分会专委会委员、中国计算机学会工业控制专委会委员、《计算机集成制造系统》理事会理事、中国图学学会数字孪生专委会委员,以第一完成人或者主要完成人获得省部级科技进步奖一、二、三等奖励5项。目录1 摘要2 引言3 复杂不平衡数据的特性分析3.1 小样本不平衡下的噪声3.2 小样本下的类内类间不平衡3.3 小样本下的多类不平衡3.4 时间序列下的小样本4 不平衡数据分类方法及其在工业不平衡数据处理中的应用4.1 重采样技术 4.1.1 欠采样技术(以上为文章上篇内容) 4.1.2 过采样技术 4.1.3 混合采样技术4.2 生成对抗网络4.3 特征选取4.4 分类器改进 4.4.1 代价敏感法 4.4.2 单类学习法 4.4.3 集成学习法5 重采样技术在工业不平衡数据处理中的应用6 工业不平衡异常监测中的困难和挑战问题7 总结1 摘要在实际工业场景中,机器大多数时间都处于正常工作状态,而故障状态下的时间则非常短。因此,收集到的故障数据非常有限,这导致了故障诊断数据集的不平衡,故障样本的数量远少于正常样本。此外,随着制造业的快速发展,机器设备变得越来越复杂,这使得收集的故障数据中存在噪声、类重叠、类内和类间不平衡、多类不平衡以及时间序列不平衡等问题。因此,解决这些问题已成为故障诊断领域的研究热点和难点,并出现了许多解决方法。本文将从数据预处理、特征提取以及分类器改进三个方面进行全面梳理。同时,还描述了不平衡数据分类方法在工业场景中的应用。最后,总结了不平衡数据分类研究领域面临的挑战,并提出了未来可能的研究方向。 关键词:故障诊断;不平衡分类问题;小样本问题;重采样技术2 引言制造业在国家经济中占据着举足轻重的位置,是国家立基之本、兴国之器、强国之基[1]。近年来,中国已将“智能制造工程”作为《中国制造2025》的五大重点工程之一,全力推动制造业的高速发展[2]。德国《国家工业战略2030》指出,德国在机械与设备制造、汽车及零部件制造等十个关键工业领域具有领先地位,并提出基于数据创新的一系列前沿技术将重塑各行各业,从根本上颠覆现有工业体系,彻底改变传统的工业活动和制造方法,重新定义制造业价值链[3]。《先进制造业美国领导力战略》设立了三大目标:开发和转化新制造技术、培养制造业劳动力、提升制造业供应链水平。其中之一就是大力发展未来智能制造系统[4]。机械设备作为制造业发展的核心基础,其在航天器、军工品、集成芯片等高精尖行业,以及汽车、火车、地铁等日常交通行业中具有广泛的应用[5]。随着智能制造技术的发展,机械设备正朝着高精度、高效率、自动化和复杂化的方向发展[6]。因此,各种机械设备的结构变得越来越复杂,且随着需求的增加,机械设备将长时间在恶劣工况下运行。这将导致其性能和健康状态逐渐退化,甚至最终完全失效。一旦机械设备发生故障,轻则降低生产效率、影响产品质量,重则可能造成人员伤亡等重大安全事故。因此,及时对机械设备进行状态监测和可靠的故障诊断是非常必要的[7]。从本质上讲,机械设备的状态监测和预测是一个数据采集、特征提取和模式识别的过程[8]。通过在机械设备上部署力学、温度、振动、加速度等传感器,可以采集关键零部件的状态信息,然后进行手动或自动的特征提取,最后将特征数据输入分类或回归模型,实现关键零部件的故障预测和寿命预测,为决策者制定维护策略提供重要支持。然而,在实际工业生产中,机械设备发生故障的频率远低于正常状态,并且不同类型的故障发生频率也有所不同[9]。因此,故障状态下收集的数据非常有限,而正常状态下可以获得大量数据,这就导致了数据不平衡的问题[10]–[12]。此外,系统本身也可能存在不平衡问题,这可能由外部扰动、故障或恶意攻击等多种因素引起。在网络控制系统中,这些因素可能导致系统性能下降、稳定性受到威胁,甚至引发系统崩溃。因此,为应对系统不平衡问题,研究人员开发了能够有效应对各种不良因素影响的滤波器设计方法[13]。目前,大多数故障诊断研究都基于数据平衡,并依赖大量的标记数据。针对这些问题,近年来出现了一种有希望的解决方案——无监督跨域诊断方法[14],它不再要求数据集具有平衡的标签分布,也不需要大量已标记的数据。相反,该方法通过在不同领域或来源之间进行知识迁移和特征学习,可以有效地进行跨域故障诊断[15]。这一方法为故障诊断研究开辟了新的途径,并有望在未来应用中发挥重要作用。然而,在工业场景中,收集的数据除了具有有限的不平衡特性外,还可能呈现以下特点:由于采集环境和工况的复杂性,采集的信号成分复杂且含有大量噪声[16]; 收集的故障(异常)数据形式不统一,同一阶段的故障数据可能分布在不同的集群中;在长期高负荷运行的状态下,机械系统可能出现单个零件多种故障或多个零部件同时发生故障的复杂情况;故障形式渐进,使得所收集的数据具有强的时间序列特性[17], [18]。 这些复杂的不平衡数据给机械系统关键零部件的预测性维护中的分类和回归建模带来了巨大挑战。因此,研究如何处理轴承、刀具等机械系统关键零部件状态监测和预测中的复杂不平衡数据分类和回归问题,具有重要的理论和应用价值。近年来,针对不平衡问题的研究出现了许多方法,但针对特定领域中的挑战性问题,如噪声、类内类间不平衡、多类不平衡和时间序列不平衡,相关的综述文献相对较少[19]。这些问题在工业故障监测中具有重要的实际应用意义,因此,对重采样技术在智能故障诊断中的综述以及在解决不平衡问题方面的应用,具有重要的研究价值。我们的研究探讨了这些方法在不平衡工业故障监测中的应用。我们发现,应用重采样技术可以改善故障监测系统对少数类别的检测能力,减少误报率,并提高整体故障诊断的准确性。通过采用合适的特征提取和分类算法,结合重采样技术,可以有效解决工业场景中的不平衡问题,提高故障监测系统的性能和稳定性。通过对这些工作的总结和讨论,我们旨在促进对不平衡数据在工业故障监测中应用的深入理解,并为实际应用中的智能故障诊断提供有益的指导。我们的综述强调了重采样技术在工业故障诊断中的重要性,并对解决不平衡问题提供了详尽的文献回顾和分析。我们相信,这些工作将有助于推动该领域的进一步研究,并为实际应用中的智能故障诊断提供宝贵的参考和指导。本文的组织结构如下:第2节介绍了实际工业场景中更为复杂的不平衡分类问题,包括小样本含噪不平衡、小样本数据的类内类间不平衡、多类不平衡以及小样本时间序列不平衡;第3节详细介绍了不平衡数据的分类方法;第4节描述了重采样技术在处理工业不平衡数据中的应用;第5节总结了工业不平衡异常监测中的困难和挑战性问题;第6节展望了未来基于这些挑战的研究方向;第7节对全文进行了总结。 3 复杂不平衡数据的特征分析在机械故障诊断领域,模型训练过程中缺乏故障数据已经成为一个广泛关注的问题,这被称为小样本问题。小样本问题是指在有效数据不足的情况下,如何建立一个高精度的智能诊断模型[20]。因此,在小样本情况下进行故障检测和诊断对于智能故障诊断应用具有重要意义。然而,近年来的研究发现,不平衡数据分类问题不仅仅由样本数量的不平衡引起,解决不平衡数据分类问题不能仅仅依赖于类样本数量的差异[21]。随着工业需求的提升,机械设备变得越来越复杂,工作环境也日益恶劣。这导致所收集的数据中常常含有噪声,并且设备运行过程中故障形式可能发生变化,有时甚至会同时发生多个故障。这种情况导致数据存在类内类间不平衡和多类不平衡的问题。此外,机械设备的故障过程通常是渐进的,因此收集的数据具有显著的时间序列不平衡性[22]。本小节将对以上四个问题进行详细描述。3.1 小样本不平衡下的噪声如图1所示,噪声数据是指数据中存在错误或异常(即偏离期望值)的数据,这些数据会对原始的数据分析造成干扰[17]。在不平衡数据中,噪声特性会显著影响诊断算法的性能[23],而噪声的存在可能进一步加剧类别之间的不平衡程度。如图2(a)所示,在未处理噪声的情况下进行过采样,会导致分类超平面的偏移,从而影响分类器的分类精度。相比之下,图2(b)展示了在处理噪声后进行过采样,实际的决策边界变化不大,对分类器的精度影响较小。此外,噪声数据还可能干扰模型的学习过程,导致错误的决策和预测。因此,准确识别和处理噪声对于提高模型性能和减少误报率至关重要。图1 工业监测数据中可能存在的噪声问题然而,在实际工程环境中,通过机械设备收集的数据不可避免地会伴有噪声。噪声数据对机械设备的故障诊断产生了多方面的影响,例如:困扰特征提取:噪声可能掩盖或干扰与故障相关的信号或特征,使得从传感器数据中提取有用的故障特征变得更加困难。噪声会模糊信号,降低特征的清晰度和可辨识性,使得故障诊断算法难以准确识别故障模式。引入误判和虚假警报:噪声可能导致误判和虚假警报。当噪声与故障信号相似或混杂在信号中时,可能会被错误地识别为故障信号,从而导致虚假的故障诊断结果。这可能会导致不必要的维修或停机时间,增加成本和不便。降低故障检测的准确性[24], [25]:噪声对故障检测算法的准确性产生负面影响。噪声的存在使得故障信号难以准确检测和辨识,可能导致故障的延误或漏检,从而增加设备故障的风险和损失。因此,处理噪声至关重要。当前,通常采用以下三种策略来克服噪声对机械设备故障诊断的影响:噪声滤波:使用合适的滤波技术来减少噪声的影响,提高信号的清晰度和质量。常见的滤波方法包括均值滤波、中值滤波和小波滤波等。特征增强:采用信号处理和特征提取技术,增强故障信号的特征,使其在噪声环境下更容易被检测和识别。这可以包括时频分析、频谱分析和小波变换等方法。强化算法鲁棒性:设计更鲁棒的故障诊断算法,以便在噪声存在的情况下仍能准确可靠地进行故障检测和诊断。可以采用机器学习方法、统计模型或基于知识的推理方法来提高算法的鲁棒性。尽管目前有许多方法可以处理噪声问题,但在小样本不均衡条件下的噪声处理仍然鲜有涉及。图2 使用SMOTE技术处理不平衡工业数据时噪声的影响[26]3.2 小样本下的类内类间不平衡机械设备的故障形式通常是变化多端的,且不同类型的故障经常会发生耦合。在这种情况下,不仅正常状态与故障状态的数据量差异显著,而且故障状态下的数据往往会分布在多个子集群中,这导致了类内不平衡和类间不平衡的共同存在。如图3(a)所示,这是一个典型的类内不平衡示例,即同一类中的某些子集的样本数量远少于其他子集[21]。类间不平衡则表现为不同数据类之间的数据量差异,其中最常见的是故障数据与正常数据之间的失衡。然而,当前大多数针对类内不平衡的问题的方法并不能完全解决这一问题,实际上可能会进一步加剧不平衡情况。如图3(b)所示,当进行过采样时,可能会导致少数类样本远离边界被忽略,从而加重类内不平衡问题,并导致决策边界的偏移,进一步影响分类器的准确性[27]。 图3 使用MWMOTE技术处理不平衡工业数据时的类内不平衡和类间不平衡问题及其影响[28] 在机械设备的故障诊断中,数据的类内和类间不平衡问题对诊断结果有着深远的影响,具体表现如下:误判和漏检:类内不平衡会导致故障样本分布不均,某些故障类型或子集的样本数量较少。这可能导致故障诊断算法将少数类别的故障样本错误地识别为正常状态,进而引发误判。同时,由于少数类别的样本数量有限,算法可能漏检某些故障类型,从而使故障未能及时发现。虚假警报和不必要的维修:类内不平衡使得某些故障子集的样本数量较少,这可能导致正常状态下的数据被错误地识别为故障信号,产生虚假警报。虚假警报会增加设备维修的频率,导致不必要的维修和停机时间,从而增加成本和不便。故障检测的准确性下降:类内不平衡会影响故障检测算法的准确性。由于少数故障子集的样本数量较少,故障信号可能在噪声中被掩盖或混杂,导致故障检测变得更加困难。这可能导致故障的延误或漏检,从而增加设备故障的风险和损失。数据样本偏倚:类间不平衡会导致不同故障类型或子集之间的样本数量不均。这可能使得算法对少数类别的故障数据学习不充分,影响其识别和分类性能。较少的故障样本数量可能导致模型的泛化能力下降,使得在实际应用中无法准确识别和处理各种故障情况。因此,解决数据的类内和类间不平衡问题对于提高故障诊断算法的性能和可靠性具有重要意义。在小样本条件下,解决这些不平衡问题的策略通常包括以下几种:数据增强:通过对原始数据进行变换和扩充,如平移、旋转、缩放、翻转等,生成额外的样本。数据增强有助于平衡类内和类间分布,提高分类器的泛化能力。特征选择和降维:通过选择与故障诊断相关的有效特征或使用降维技术,减少特征空间的维度。这有助于提取最具代表性的特征,减少数据的冗余性,并提高分类器的性能。跨领域知识迁移:利用从其他领域或相关任务中学习到的知识,辅助解决小样本条件下的类内和类间不平衡问题。这包括使用预训练的模型或迁移学习方法来利用先验知识。基于生成模型的方法:使用生成模型模拟数据分布,并生成新的样本以增加少数类的数量。这包括使用生成对抗网络(GANs)或变分自编码器(VAEs)等生成模型来合成新样本。强化学习:使用强化学习算法优化决策过程,以解决小样本条件下的类内和类间不平衡问题。强化学习通过与环境的交互来学习最优的行动策略,从而减少错误分类和漏检。集成学习:将多个分类器集成在一起,通过集体决策来处理小样本条件下的类内和类间不平衡问题。集成学习可以提高分类器的稳定性和泛化能力,减少错误分类和漏检的风险。3.3 小样本下的多类不平衡由于工况的复杂性和环境的恶劣性,机械设备的多个部件可能会同时发生故障[29]。在实际的工业场景中,不平衡的多类数据问题尤为常见,如图4所示。在处理多类问题时,可能需要同时处理多个少数类或多个多数类,这些类中的样本在某些特征上的相似性可能较高,从而在特征空间中形成重叠区域。在小样本问题中,由于少数类样本相对于多数类样本非常稀疏,这进一步增加了类重叠的概率[30]。类重叠会导致分类决策边界的偏移,增加分类错误的可能性,降低分类器的准确性,并使边界更加模糊,增加分类结果的不确定性和不可靠性。在实际的设备故障诊断过程中,边界类的样本往往更加重要。边界类指的是那些位于不同类别之间或接近其他类别的样本。这些样本可能具有关键的特征或属性,对于故障诊断和预测提供了重要的信息。因此,解决多类不平衡问题成为了至关重要的任务。图4 工业监测数据中的多类不平衡问题及其对分类建模的影响与类内类间不平衡问题对故障诊断产生的影响类似,多类不平衡对故障诊断的影响也包括误判、漏检、虚假警报、不必要的维修、准确性下降和数据样本偏倚。解决多类不平衡问题的方法通常包括:数据增强:通过对原始数据进行变换和扩充来增加样本数量,以平衡不同类别之间的样本差异。常见的数据增强方法包括随机旋转、翻转、缩放、平移等操作,使得原始样本集更加丰富多样。类别平衡技术:针对多类不平衡数据集,可以采用类别平衡技术来调整不同类别之间的样本比例。常见的类别平衡技术包括欠采样和过采样。欠采样方法通过减少多数类样本数量来平衡类别之间的样本比例,而过采样方法则通过复 制或生成少数类样本来增加少数类的样本数量。集成学习:集成学习是一种通过组合多个分类器来提高分类性能的技术。在处理多类不平衡数据时,可以采用集成学习方法,如Bagging、Boosting和Stacking等,将多个分类器的预测结果进行集成,以改善对少数类的识别能力。基于代价敏感学习:在多类不平衡数据中,不同类别的错误分类可能具有不同的代价。通过引入代价矩阵或代价权重,可以将分类器训练过程中的错误分类代价考虑进去,使得分类器更加关注少数类别的识别和分类。3.4 时间序列下的小样本在工业场景中,时间序列分类是一个普遍存在且具有挑战性的问题。时间序列数据包含一组有序的实值变量,这些变量是从时域或空间域的连续信号中提取的。由于时间序列具有顺序特征,接近的变量通常是相关的[31]。此外,时间序列数据通常具有高维数据、多变量间强相关性以及噪声干扰等特点[32]。如图5和图6所示,分别展示了PHM2010铣刀磨损退化数据集中C1刀具的磨损值变化曲线和全生命周期振动信号退化趋势图,它们都是典型的时间序列数据。通常,刀具磨损阶段分为初期磨损阶段、正常磨损阶段和剧烈磨损阶段。然而,初期磨损阶段和剧烈磨损阶段的数据量通常远远小于正常磨损阶段的数据量,因此刀具全生命周期的退化数据呈现出时间序列不均衡的特点。此外,初期磨损阶段和剧烈磨损阶段的数据量也有所不同,这导致了非正常磨损阶段的数据在类内也呈现不均衡状态。另一方面,研究人员更关注剧烈磨损阶段的预测。如图5所示,刀具在进入剧烈磨损阶段时,其磨损量的扩展速率会有所不同,导致逐步增加。因此,在刀具故障预测中,如图6所示,初期剧烈磨损阶段的数据量较多,而临近刀具报废时的数据量较少(即,同一类别下来自不同时间序列样本之间可能存在许多内部变化)[32]。因此,剧烈磨损阶段磨损值的预测也面临着典型的类内不均衡问题。 图5 PHM2010 C1铣刀的生命周期磨损曲线图6 工业异常检测中的典型时间序列不平衡问题(以PHM2010 C1切削场景为例)因此,以刀具磨损阶段的识别或磨损值预测作为例子,展示了典型的时间序列和类内不均衡问题。然而,时间序列数据的特殊性使得传统的不平衡数据分类方法不完全适用,并且在序列数据中区分少数类和噪声变得更加困难,类别之间的重叠问题也更加复杂。因此,时间序列数据的不平衡性对故障诊断研究产生了巨大影响。目前,为了解决时间序列数据的不平衡问题,重采样技术被广泛应用。此外,还可以采用以下两种方法:特征选择和降维:对于高维度的时间序列数据,可以使用特征选择和降维技术来减少特征维度,同时保留最具区分性的特征。通过选择和提取最相关的特征,可以减少不平衡数据集中的噪声和冗余信息,从而提高分类器的性能。生成对抗网络(GANs):GANs是一种强大的生成模型,能够生成合成样本以增加少数类别的样本数量。通过训练生成器和判别器的对抗过程,GANs可以生成逼真的少数类别样本,从而平衡数据集。这两种方法可以有效地解决时间序列数据中的不平衡问题,从而提高故障诊断模型的准确性和可靠性。4 不平衡数据分类方法及其在工业不平衡数据处理中的应用现实中的数据通常具有不平衡特性,即某些类别的样本数量远远少于其他类别。因此,如何设计分类方法以同时保证多数类和少数类的分类精度,已成为数据挖掘、人工智能等领域的研究热点,并催生了大量解决不平衡分类的方法。如图7所示,这些方法主要集中在三个层面上:数据预处理[34]、特征提取[35]以及分类器改进[36]。本节将回顾并分析这些方法及其在工业不平衡分类中的应用。此外,还将简述一种新型的分类方法——生成对抗网络(GANs),并探讨其在解决数据不平衡问题中的潜力。 图7 不平衡分类的典型方法 4.1 重采样技术针对数据不平衡分类问题,数据预处理中的重采样技术是应用最广泛的方法之一[9]。重采样通过复 制或合成少数类样本,或删除多数类样本,来改善样本分布的平衡性。其主要优点是不会改变后续分类器的结构,且可在分类算法的学习训练之前独立进行[37]。重采样技术主要分为三类:欠采样技术、过采样技术以及混合采样技术。4.1.1欠采样技术 为了解决随机欠采样方法的不足[38],许多研究人员对删除条件进行了改进。例如,Edited Nearest Neighbor(ENN)[39]通过计算多数类样本的最近邻分布情况来决定哪些样本需要删除,即当某多数类样本的近邻域中其他类别的样本占多数时,便将其删除。然而,ENN能删除的多数类样本数量有限,可能无法从根本上解决数据的不平衡问题。Neighborhood Cleaning Rule(NCL)[40]在ENN的基础上,进一步考虑少数类样本的近邻分布,以删除更多的多数类样本。NCL不仅删除周围嘈杂的多数类样本,还删除少数类样本周围的嘈杂多数类样本。Tomek-Links欠采样法[41]通过构建不同类别样本的Tomek Links对(如果训练集中不同类别样本a和b之间的欧式距离小于任意其他样本之间的欧式距离,则称其为Tomek Links对)来删除多数类样本。但Tomek-Links算法仅考虑全局样本之间最近的边界实例,忽略了潜在的局部重叠实例。因此,Dai等人[42]提出了一种多粒度重标记欠采样算法,该算法在局部粒度空间中充分考虑数据集的局部信息,检测数据集中潜在的局部重叠实例,并通过全局重新标记的索引值删除这些重叠的多数类实例,从而有效扩大了Tomek-Links的检测范围。此外,Lin等人[43]提出了两种基于聚类算法的欠采样技术,这些方法依据k-近邻(K-NN)规则选择聚类中心或聚类中心的最近邻样本来代表多数类样本。尽管这些算法在一定程度上克服了随机欠采样技术容易删除重要信息的问题,但可能会破坏原始样本的分布。因此,Ng等人[44]提出了一种基于多样化敏感性的欠采样技术,该方法通过灵敏度测量合理选择可修剪的样本,最大限度保留原始数据集的分布信息。然而,在工业场景中,实际收集的数据往往不仅仅是简单的两类不平衡数据,还可能包含噪声、类内类间不平衡、多类不平衡等一系列复杂的不平衡问题。近年来,许多研究人员提出了针对这些复杂问题的欠采样方法,以更好地应对工业场景下的数据挑战。1)针对噪声问题Kang等人[45]首次将噪声滤波器与欠采样方法相结合。其特点是在训练分类器之前,先过滤掉少数类样本中的噪声实例。Ruisen等人[46]则提出了一种基于bagging的算法,该算法结合了Xgboost分类器和欠采样方法,用于解决二分类问题中的数据不平衡及噪声问题。为避免数据不平衡导致的模型误差,该方法通过带放回的随机抽样生成多个平衡的训练集;同时,为了减轻噪声对模型的误导,引入了Tomek Link方法,以消除作为噪声主要来源的跨类重叠实例。2)针对类内类间不平衡问题为了解决欠采样方法可能导致信息样本丢失的问题,NG等人[47]提出了基于散列的欠采样集成(HUE)方法。该方法通过散列技术将多数类样本划分为多个子空间,每个子空间对应一个训练子集,包含来自该子空间的多数 样本以及来自周围子空间的少数样本。这些训练子集用于训练一个包含所有少数类样本的分类与回归树分类器的集 合。针对大规模高度均衡数据集中欠采样技术易导致多数类有用信息丢失且模型难以泛化的问题,Ren等人[48]提出了一种具有两种新方案的均衡集成方法(EASE)。首先,该方法通过均衡欠采样方案为每个基分类器生成一个平衡的数据集,减少类不平衡对基分类器的影响;其次,设计了一个加权整合方案,以基分类器在原始不平衡数据集上获得的G-mean分数作为权重。这样,性能较好的基分类器能够主导最终分类决策,同时适应不同规模的不平衡数据集,并避免极端不良情况的发生。此外,Liu等人[49]提出了一种基于球形聚类划分和密度峰值优化的类不平衡数据分类算法(DPBCPUSBoost)。该方法首先利用密度峰值信息为多数类样本分配抽样权重,将具有“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重。通过迭代欠采样,第一次迭代时按照抽样权重对多数类进行欠采样,而在后续迭代中根据样本分布权重进行欠采样,并将欠采样后的多数类样本与少数类样本组成临时训练集以训练弱分类器。最终,结合样本的密度峰值信息与类别分布,为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。现有的大多数欠采样方法主要关注数据整体结构特征的保留或通过势能估计来保留负类的整体结构特征,但未充分考虑梯度淹没和正样本经验表示不足的问题。为此,Huang等人[12]提出了一种解决数据不平衡问题的新范式。该方法通过信息丰富的欠采样策略应对梯度淹没问题,恢复神经网络在不平衡数据下的性能。此外,通过边界扩展策略,结合线性插值和预测一致性约束,缓解了正样本经验表示不足的问题。尽管许多欠采样方法已经被提出,但现有研究仍主要集中在类间不平衡问题,对于类内不平衡问题的研究相对较少。3)针对类重叠问题Vuttipittayamongkol等人[50]提出了一种基于近邻域的欠采样方法来处理类重叠数据。他们引入了四种不同的基于K-NN的方法,以探索单个实例的局部环境,并确定应消除的重叠实例。然而,基于最近邻的方法只关注局部域内实例的局部相似度,未能考虑全局相似度。为了解决这一问题,Dai等人[51]提出了一种新颖的Schur分解类重叠欠采样方法(SDCU)。SDCU试图通过全局相似性来识别潜在的重叠实例,并首次使用矩阵分解方法处理类不平衡数据中的类重叠问题。近年来,研究人员发现,将Tomek-Link算法与采样技术相结合,可以有效减少数据中的类重叠,消除大部分难以区分的实例,从而提高分类算法的精度。然而,Tomek-Links欠采样算法仅考虑全局范围内彼此最近的边界实例,忽略了潜在的局部重叠实例。当少数类样本数量较少时,欠采样效果不理想,分类模型的性能提升有限。为此,Dai等人[52]提出了一种多粒度重标记欠采样算法(MGRU)。该算法在局部粒度子空间中充分考虑数据集的局部信息,检测出潜在的局部重叠实例,然后根据全局重新标记的索引值消除重叠的多数类实例,从而有效扩大了Tomek-Links的检测范围。随着元启发式算法表现出强大的优化能力,一些研究人员将其与欠采样技术结合,来解决不平衡数据中的类重叠问题。Soltanzadeh等人[53]提出了一种基于元启发式方法的欠采样技术。不同于大多数现有的欠采样方法,该方法旨在选择多数类样本的最佳子集,以同时处理不平衡和类重叠问题,同时避免过度删除多数类样本,尤其是在重叠区域。生成的解决方案通过分类器进行评估,并在进化过程中不断优化。4)针对多类不均衡的问题Claudia等人[54]提出了一种定制化实例随机欠采样(CIRUS)方法,旨在解决多类不平衡问题。该方法通过计算每个多数类的紧凑集,以获得类的结构化表示。然后,利用迭代方式从紧凑集中随机选择一个实例并将其加入结果集中,直到结果集中多数类实例的数量与少数类实例的数量相同。虽然欠采样技术在缓解数据集不平衡性方面具有一定的效果,且算法复杂度较低,但在应对噪声、类内类间不平衡、多类不平衡及时间序列不平衡问题时仍存在以下几点局限性:噪声问题:欠采样方法在处理噪声时可能面临挑战。由于噪声实例通常是少数类样本中的异常值或错误标记,欠采样可能无法准确区分噪声和正常样本。在删除噪声实例的过程中,可能会损失正常样本中的有用信息,从而导致模型性能下降。类内类间不平衡问题:欠采样方法在解决类内类间不平衡问题时可能存在局限性。由于欠采样通常基于类别的样本数量进行操作,可能无法解决类别内部的样本分布不均或重叠问题。欠采样可能无法充分考虑这些特性,导致模型在处理类内不平衡问题时仍面临挑战。多类不平衡问题:欠采样方法在应对多类不平衡问题时也可能存在困难。多类不平衡涉及多个类别之间的不平衡,其中某些类别的样本数量可能较少。欠采样方法可能难以有效处理多个少数类或多数类,并且在删除多数类样本时,可能导致数据集进一步不平衡。时间序列不平衡问题:在处理时间序列不平衡问题时,欠采样方法可能受到限制。时间序列数据具有时间依赖性和连续性,因此在进行欠采样时需要考虑样本的时间顺序。传统欠采样方法可能无法有效保留时间序列中的重要信息和模式。 编辑:赵学功校核:李正平、陈凯歌、赵栓栓、曹希铭、白亮、陈少华、任超该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除点击左下角阅读原文,即可在线阅读论文。来源:故障诊断与python学习