基于领域适应性的数字孪生辅助人工智能框架，用于离心泵轴承缺陷诊断（下）

7天前浏览704

本期给大家分享一篇小编近期阅读的数字孪生技术相关文章。如果有故障诊断相关方向研究人员希望宣传自己研究成果，欢迎大家在公众号后台与小编联系投稿，大家一起交流学习。

数字孪生是当前故障诊断领域的研究热点。本期推荐的这篇是中国科学院阿尼尔·库马尔院士的文章，这篇文章中提出了一种新的结合数字孪生技术和领域自适应的框架，为判断轴承缺陷提供了解决方案。本文展现了结合领域自适应技术在数字孪生的辅助下，应用于工业领域中，显著增强了预测性维护策略的潜力。

由于文章篇幅过长，小编将分两次为大家翻译介绍这篇综述，本节推文是这篇文章的下半部分，希望对大家的学习有所帮助，文章质量很高同时希望大家可以多多引用，特别是对所提方法的借鉴。

论文链接：通过点击最左下角的阅读原文进行在线阅读及下载。

论文基本信息

论文题目: Digital twin-assisted AI framework based on domain adaptation for bearing defect diagnosis in the centrifugal pump

论文期刊：Measurement

Doi：https://doi.org/10.1016/j.measurement.2024.115013

作者: Anil Kumar(a), Rajesh Kumar(b), Jiawei Xiang(a), Zijian Qiao(c), Youqing Zhou(d), Haidong Shao(e) .

论文时间: 2024年

机构:

a College of Mechanical and Electrical Engineering, Wenzhou University, Wenzhou, 325 035, China

b Sant Longowal Institute of Engineering and Technology, Longowal, 148 106, India

c Zhejiang Provincial Key Laboratory of Part Rolling Technology, School of Mechanical Engineering and Mechanics, Ningbo University, Ningbo 315211, Zhejiang, China

d College of Mechanical and Electrical Engineering, Jiaxing Nanhu University, Jiaxing 314001, China

e School of Mechanical and Vehicle Engineering, Hunan University, Hunan 410082, China

作者简介：阿尼尔·库马尔，于1970年获得俄亥俄州立大学电气工程硕士学位；1973年获得俄亥俄州立大学博士学位。1974年至1982年，他在密歇根州立大学计算机科学系担任助理教授、副教授、教授；1992年起任密歇根州立大学杰出教授；1995年至1999年任密歇根州立大学计算机科学与工程系主任；2016年当选为美国国家工程院院士和印度国家工程院外籍院士；2019年当选为中国科学院外籍院士和发展中国家科学院院士。(来源：ResearchGate）

摘要

离心泵中的轴承缺陷是设备故障的常见来源，通常会导致设备停机并产生大量维修费用。深度学习算法可以用于检测缺陷。然而，在现实世界中，往往存在标记数据的稀缺性。为了应对这一挑战，我们提出了一个结合数字孪生技术和领域自适应的框架，用于准确判断轴承缺陷。我们所提出的框架利用数字孪生的概念创建泵轴承的虚拟表示，从而实现对操作条件的实时监测和仿真。然后应用领域自适应技术，将知识从数字孪生产生的合成数据传递到实际操作环境，克服合成和真实世界数据之间的领域差距。研究结果突显了数字孪生辅助结合领域自适应技术在工业应用中增强预测性维护策略的潜力。

关键词：数字孪生；AI；轴承缺陷；离心泵；深度学习；领域适应性

3仿真和实验( SE )分析：整合动态仿真和实验结果

在本部分中，我们对动态模拟和实验（SE：Simulation and Experimental）分析进行了全面的探索，以开发使用领域自适应的数字孪生辅助AI框架，用于离心泵中的轴承缺陷诊断，建立了轴承的集中质量模型。本部分还建立了离心泵的物理模型，这一部分详细介绍了离心泵的物理模型，概述了设计考量、实验装置和实验数据的分析。在这一部分中，我们应用了一个基于领域自适应的缺陷诊断框架，利用机器学习算法在领域之间进行知识迁移。

3.1 模拟模型

所描述的泵系统动态集中质量模型包含关键组件，如转子、轴承和叶轮，以模拟其动态行为。在该模型中，转子被简化为两个质量点，位于质心处，并连接到两个轴承和一个叶轮。轴承1和2被表示为弹簧阻尼系统，以捕捉其刚度和阻尼特性，其中轴承1位于靠近叶轮的位置。由三个旋转叶片组成的叶轮被建模为连接到转子轴的集中质量。用于模拟离心泵轴承缺陷的动态模型如图1所示。

图1 .离心泵转子轴承系统的集中质量模型。

（4）式表示轴承座H1在水平方向( x )上的动平衡。式中：m_H1、( kCH_ Hr1、cCH_Hr1)、( kHB_Hr1、cHB_Hr1)分别表示轴承座H1的质量、刚度和阻尼系数；下标H1、C1、B1分别表示系统内部不同的点或部件：H1对应轴承座，C1对应机匣，C1对应轴承。术语涉及机匣与机匣、机匣与轴承之间的CH和HB连接/接口。Hr和V分别表示水平和垂直方向上的参数。

与方程( 4 )类似，方程( 5 )表示轴承座H1在竖直方向( y )上的动平衡。术语和变量的含义与式( 4 )类似，但适用于垂直方向。

该方程( 6 )表示转子r1在水平方向( x )上的动平衡。其中mr1、k和crb分别表示转子r1的质量、刚度和阻尼系数。F xb1表示作用在转子r1上的外力，可能是由于与轴承b1有一定的相互作用。

与方程( 6 )类似，方程( 7 )表示转子r1在竖直方向( y )上的动平衡。术语和变量的含义与方程( 6 )类似，但适用于垂直方向。mr1g表示作用在转子r1上的重力。

式( 8 )表示支座b1在水平方向( x )上的动平衡。mb1，m_b1和kHB_ H1，cHB_H1分别表示轴承b1的质量、刚度和阻尼系数。F_xb1和F_yb1是周期性变化的接触力，即球与球之间的接触力在水平和垂直方向上以不同的角度发生融合。

与方程( 8 )类似，该方程( 9 )表示支座b1在竖直方向( y )上的动力平衡。这些术语和变量与方程( 8 )中的术语和变量有相似的含义，但它们适用于垂直方向。m_b1g表示作用在轴承b1上的重力。

接触力和的变化来源于滚珠与滚道之间不同角度接触力的组合。第个球的角位置，记为 , 由一个特定的公式确定：

其中ω_c为角速度，t为时间，Nb为小球总数，π为数学常数pi。当小球位于缺陷区域内时，由公式mod ( theta ( j )，360 ) φ < β划定，通过计算确定恢复力：

否则，若小球位于缺陷区域之外，则恢复力为：

式子中：为位移，为常数，和为位置坐标，为参考位移，为缺陷引起的位移，为激活函数。

式子中定义激活函数H，当于0时，H等于1；否则，等于0。在此背景下，表示缺陷的角度方向，β表示缺陷在球心处所受的角度。在这里，表示第i个球的角位置，表示第i个球与滚道之间的接触力，根据参考文献中提供的公式计算。[19]。

由缺陷区域引起的附加间隙，称为δD，定义为：δD等于球的半径之差，记为r_B，球的半径的平方与缺陷宽度或范围的平方之差的平方根，记为L_D。

在方程( 12 )和( 13 )中，参数C_b作为赫兹接触刚度的指标。球与滚道之间的间隙记为δj，其初始值由δ0确定。

不同工况下的动力学仿真所产生的振动信号如图2所示。数据的标注如表1所示。

图2 .针对不同工况进行动力学仿真产生的振动信号。

表1 数据标记。

3.2 实验分析

图3所示的实验装置工作在43赫兹的频率下，包括由两个轴承支撑的转子，分别称为轴承1和轴承2。轴承1位于离叶轮更近的位置，被指定为测试轴承，其型号为6203-ZZ。叶轮固定在转子轴上，并伸出到叶轮壳体内。它由三个旋转叶片组成，负责将流体沿轴向通过叶轮进口。图4显示了对应于各种条件的振动信号。

图3 .测试( a )原理图( b )实拍图。

图4. 来自不同状态下的振动信号（a）无缺陷（类别0）（b）内圈缺陷（类别1）（c）外圈缺陷（类别2）（d）滚珠缺陷（类别3）。

3.3基于数字孪生辅助领域适应的缺陷诊断框架

用于离心泵轴承缺陷诊断的数字孪生辅助人工智能框架涉及创建泵轴承的虚拟表示(数字孪生)。这种数字孪生用于模拟水泵轴承的行为行为，并检测出指示轴承缺陷的异常。生成仿真信号的流程图如图5所示。

图5. 数字孪生辅助条件监测框架布局。

领域自适应技术用于将从模拟环境中获得的知识适应泵的实际运行条件。来自动态模型的数据被称为源域，而实际运行工况被称为目标域。这种对抗式的竞争促使模型发展领域不变的表示，有利于提高适应性。具体的方法步骤如下：

1.从仿真(源域)和实验(目标域)数据中提取信号片段。对提取的信号片段进行归一化处理，保证跨域输入数据的一致性。

2.设计以领域对抗神经网络( DANN ：Domain Adversarial Neural Network)为核心的模型架构。融入单传感器卷积神经网络( CNN ：Convolutional Neural Network )进行特征提取和分类。

3.使用梯度反转层增强CNN架构。该层通过反向传播过程中的梯度反转，在领域适应过程中发挥了关键作用，从而鼓励网络学习领域无关的特征。这种方法最大限度地减少了领域特异性变异的影响，有利于知识从模拟域到实验域的有效转移。该模型架构是一个带有额外域分类器分支的卷积神经网络，架构分解如表2所示。

表2 DAN的网络体系结构

4.使用准备好的数据训练模型，遵循设计的架构和优化方法。在模型训练过程中共同优化任务特定（分类）和领域对抗损失。通过同时最小化分类错误和最大化领域混淆，模型学习领域不变表示。通过同时优化分类性能并促进领域不变表示，提出的方法为离心泵轴承故障检测在不同操作环境中提供了健壮的解决方案。

5 .在来自目标领域的实验数据上对训练好的模型进行评估。评估模型在轴承故障检测中的性能及其跨领域泛化的能力。

在训练阶段，模型使用源域数据进行训练，同时最小化领域差异，以增强其对目标域的泛化能力。这是通过联合优化任务特定损失和领域对抗损失来实现的，并仔细考虑了损失加权，以确保均衡的训练目标。训练过程如图6所示。此外，训练过程结合了标准的做法，如模型检查指向和提前停止，以防止过拟合并促进收敛。

图6 . DAN适应过程中的训练表现。

训练完成后，在测试集上从来源和领域两个方面对模型的性能进行综合评估。缺陷识别结果如表3所示。在源域和目标域数据上的准确率分别为89.27 %和99.55 %。模型的预测能力通过混淆矩阵（图7）进行可视化，从而揭示其在不同故障类别上的分类性能。

表3预测结果( a )源域和( b )目标域。

图7 .使用DAN方法的混淆矩阵( a )源域和( b )目标域。

域适应网络( DAN：Domain Adaptation Network )的选择是通过一个试错的过程来实现的。值得注意的是，我们还探索了多种域适应方法，如最大分类器差异( MCD：Maximum Classifier Discrepancy )和自集成视觉域适应( SEDA：Self-Ensembling for Visual Domain Adaptation )。他们的结果在这里给出。我们的方法包括尝试不同的适应技术，以确定最有效的适应技术。

其次，采用最大类间方差( MCD：Maximum Classifier Discrepancy，)进行领域自适应。在训练过程中，最大分类器差异(MCD： Maximum Classifier Discrepancy )被计算为源域和目标域的域输出之间的最大绝对差。通过在共享特征空间中对齐领域的特征分布，模型可以有效地适应数据集之间的变化，从而提高模型在目标领域上的性能。训练过程如图8所示。各分类预测结果如表3所示。由试验数据得到的结果的混淆矩阵如图9所示。在源域和目标域数据上的准确率分别为83.26 %和100 %。

图8 .最大分类器差异( Maximum Classifier Discrepancy，MCD )自适应过程中的训练性能。

图9. 使用MCD方法的混淆矩阵（a）源领域和（b）目标领域。

第三，采用自我集成的领域自适应方法用于视觉领域自适应（SEDA：Self-Ensembling for Visual Domain Adaptation）。SEDA是一种创新的方法，用于提高卷积神经网络（CNN：Convolutional Neural Networks）在视觉领域自适应任务中的性能。该方法将自我集成这种旨在提高模型泛化能力的正则化技术，与领域自适应策略相结合，以解决领域转移的挑战。模型架构包括用于特征提取的卷积层、用于预测类标签的任务特定分类层，以及用于区分源域和目标域的领域分类器组件。在训练过程中，模型被优化来最小化任务特定和领域分类损失，促进信息特征的提取同时保持对领域差异的鲁棒性。训练性能如图10所示。利用混淆矩阵（图11）和表3进行了预测结果的呈现。准确率分别为源域数据为99.55%，目标域数据为24.77%。

图10 . SEDA适应过程中的训练表现。

图11. 使用SEDA方法的混淆矩阵（a）源领域和（b）目标领域。

根据表3中给出的源域和目标域的结果，可以得出关于不同方法( DAN、MCD、SEDA)在预测0，1，2和3类时的性能的几个结论。

在源域中，三种方法在预测第0、2、3类时均取得了较高的准确率，其中DAN在第0、2类达到了100 %的准确率，MCD在第0、2、3类达到了100 %的准确率。然而，在第一类问题上，SEDA的准确率相对较高，为96.92 %，而DAN和MCD的准确率较低，分别为61.53 %和40 %。总体而言，SEDA取得了99.23 %的最高总精度，其次是DAN ( 89.27 % )和MCD ( 83.26 % )。

在目标领域中，DAN继续表现良好，在所有类别中取得了高准确率。MCD也在所有类别中保持了高性能，都实现了100％的准确率。然而，与源域相比，SEDA在目标领域的性能显著下降，类别0、1、2和3的准确率分别为91.11％、0％、0％和0％。这表明SEDA可能在目标领域中泛化能力较差。总之，DAN和MCD在源领域和目标领域都表现出色，其中DAN在源领域的准确率略高，而两种方法在目标领域几乎实现了相同的准确率。

4 结论

在本文中，我们介绍了一种将数字孪生技术与领域自适应相结合的框架，以增强实际离心泵中轴承缺陷诊断的准确性。通过数字孪生创建物理泵系统轴承的虚拟副本，我们实现了实时监测和模拟，提供了有价值的合成数据来源。利用领域自适应技术，我们成功地弥合了合成数据和真实世界数据之间的鸿沟，促进了知识转移，并提高了诊断模型的鲁棒性。

我们使用真实世界数据进行的综合评估结果展示了所提出框架的有效性。在轴承缺陷诊断中取得的准确率展示了我们方法在革新工业应用预测性维护策略方面的潜力。数字孪生和领域自适应的无缝整合不仅改善了诊断能力，还为各种泵配置和工况提供了可扩展且可适应的解决方案。

域适应网络( DAN：Domain Adaptation Network )、最大分类器差异( MCD：Maximum Classifier Discrepancy )和自集成视觉域适应( SEDA：Self-Ensembling for Visual Domain Adaptation )已被用于域适应。在评估应用于源域和目标域的领域自适应方法的结果时发现，在所有方法中，DAN始终表现出最高的性能(源域数据: 89.27 % ,目标域数据: 99.55 %。)，在两个领域的所有类中都取得了显著的准确率。MCD紧随(源域数据: 83.26 % ,目标域数据: 100 %)之后，在源域表现出更低的性能，在目标域保持稍强的准确性。相比之下，SEDA在过渡到目标域时表现出(源域数据: 99.23 % ,目标域数据: 24.77 %。)的显著下降，特别是在类1，2和3中，表明其有效泛化的能力有限。总的来说，DAN是领域自适应中最健壮的方法，它在适应新的领域和在各种类中保持高精度方面显示了它的有效性。

总之，将数字孪生辅助的AI框架与领域自适应相结合，对于推进工业设备领域的预测性维护具有巨大的前景。在这一方向上的进一步研究和开发可以得到更稳健和通用的解决方案，最终减少停机时间，降低维护成本，并提高离心泵和类似机械在工业环境中的整体可靠性。

编辑：赵栓栓

校核：李正平、陈凯歌、曹希铭、任超、赵学功、白亮、陈少华

该文资料搜集自网络，仅用作学术分享，不做商业用途，若侵权，后台联系小编进行删除

来源：故障诊断与python学习

综述 | 设备状态监测中处理工业数据分布不平衡的重采样技术(中)

本期给大家推荐魏建安教授的设备状态监测中处理工业数据分布不平衡的重采样技术综述（中）。在工业生产中，机器设备大部分时间处于正常运行状态，故障发生的时间极为短暂，导致故障数据稀缺，数据集普遍存在不平衡问题。随着制造业的快速发展，复杂设备的故障数据往往伴随噪声和多重不平衡现象，给故障诊断带来巨大挑战。本文将从数据预处理、特征提取和分类器改进三个方面，系统分析当前不平衡数据分类的主要方法，并探讨这些方法在工业场景中的应用及未来研究方向。论文链接：通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目：Review of resampling techniques for the treatment of imbalanced industrial data classification in equipment condition monitoring论文期刊：Engineering Applications of Artificial Intelligence论文日期：2023年8月论文链接:https://doi.org/10.1016/j.engappai.2023.106911作者：Yage Yuan , Jianan Wei , Haisong Huang机构：Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China作者邮箱:gs.ygyuan22@gzu.edu.cnjawei@gau.edu.cnhshuang@gzu.edu.cn作者简介：魏建安，工学博士，贵州大学特聘教授，硕导，贵州省“产业技术创新副总”，研究方向为制造大数据与制造信息系统、航空航天领域关键零部件智能制造与运维、医工领域数据与图像处理等。主持国家级、省部级课题4项；发表相关领域论文近30篇，其中一作或通信发表SCI 1区Top论文8篇、2区论文1篇(综述)，单篇最高被引150余次；科学出版社出版工业大数据与智能运维领域学术专著1部；授权国家发明专利3项；担任《航空动力学报》(EI)、《工业工程》、《数据采集与处理》、《中国测试》等领域知名期刊的青年编委；担任中国图学学会(CGS)可视化与认知计算专委会委员、中国图学学会(CGS)青年工作委员会委员、中国机械工程学会(CMES)工业大数据与智能系统分会专委会委员、中国图形图像学会(CSIG)遥感图像专委会委员、中国自动化学会(CAA)动态学习与智能医学专委会(筹)专委会委员、全国材料与器件科学家智库-电子信息材料与器件专家委员会常务委员等学术兼职。黄海松，工学博士、教授，博士生导师，贵州大学现代制造技术教育部重点实验室常务副主任、贵州省百层次创新人才，贵州省省管专家,贵州省科技拔尖人才、重庆市“巴渝学者讲座教授”，中国机械工程学会工业大数据与智能系统分会专委会委员、中国计算机学会工业控制专委会委员、《计算机集成制造系统》理事会理事、中国图学学会数字孪生专委会委员，以第一完成人或者主要完成人获得省部级科技进步奖一、二、三等奖励5项。目录1 摘要2 引言3 复杂不平衡数据的特性分析3.1 小样本不平衡下的噪声3.2 小样本下的类内类间不平衡3.3 小样本下的多类不平衡3.4 时间序列下的小样本4 不平衡数据分类方法及其在工业不平衡数据处理中的应用4.1 重采样技术 4.1.1 欠采样技术 4.1.2 过采样技术 4.1.3 混合采样技术4.2 生成对抗网络4.3 特征选取4.4 分类器改进 4.4.1 代价敏感法 4.4.2 单类学习法 4.4.3 集成学习法（以上标记章节为本文内容）5 重采样技术在工业不平衡数据处理中的应用6 工业不平衡异常监测中的困难和挑战问题7 总结4 不平衡数据分类方法及其在工业不平衡数据处理中的应用4.1.2 过采样技术过采样技术通过增加少数类样本来提高分类性能。与欠采样技术相比，过采样不会删除大量含有重要信息的样本。随机过采样技术[55]是最简单的过采样方法，通过随机复制少数类样本，使其数量与多数类样本相当。然而，这种随机复制方式容易导致过度拟合[56]，并且无法增加额外的有用信息。图8 SMOTE技术的采样过程为了解决这一问题，Chawla等人[57]提出了一种合成少数类过采样技术（SMOTE），该方法通过插值在少数类样本的k近邻域中生成新个体。如图8所示，SMOTE首先从少数类中选取一个待采样实例(x)；接着，在与其同类的k近邻样本集中随机选取一个实例(y)；最后，通过下述公式使用线性插值的方式随机生成新实例(g)。 (1)因此，SMOTE能够生成不同于原始数据的新实例，从而克服随机过采样方法的过拟合问题。然而，使用K-NN方法进行插值合成新样本时，可能会面临以下问题[21]：噪声影响可能被放大。如果噪声样本被选为插值对象，所生成的新样本也可能会包含噪声。加剧类重叠问题。当插值区域位于类重叠区域时，可能会进一步加重类重叠，从而导致分类器的分类精度下降并引发过度泛化。加剧类内不平衡。由于SMOTE方法随机选择实例进行合成，在少数类样本密集的区域生成的新样本数量可能会多于稀疏区域，从而加剧类内不平衡。过度拟合。在样本密集区域生成的新样本与原始样本距离较近，重复度高，难以为分类器提供新的学习信息。为了解决这些问题，研究人员提出了多种改进的过采样方法。1）针对噪声问题 Rivera[58]提出了一种噪声减少的先验合成过采样（NRAS）方法，该方法通过生成一个新特征来表示少数类成员的概率，并去除那些表现为噪声的少数类样本。Thanh Vo等人[59]提出了一种噪声自适应合成过采样技术，其核心在于根据数据噪声比的概念（即样本到其k个最近邻中同一类样本的距离之和）来确定为少数类样本生成的新样本数量。我们团队[26]提出了一种免疫噪声的多数类加权少数类过采样技术（NI-MWMOTE），其核心在于噪声自适应处理策略：首先，利用k-NN法识别出“疑似”噪声，具体区别如图9所示。从图中可以看出，离少数类中心距离越大且离多数类中心距离越小的疑似噪声，越有可能是真实噪声；此外，在少数类中的近邻域密度越小，而在多数类中的近邻域密度越大的疑似噪声，也越可能是真实噪声。然后，基于样本间的欧氏距离和近邻域密度的加权值，将“疑似”噪声的真实噪声概率进行排序，得到噪声概率集；最后，根据噪声概率集、错分误差以及迭代方式自适应地选择最佳噪声处理策略。图9 疑似噪声的差异：(a) 欧几里得距离比较，(b) k最近邻密度比较 [26]这种方法克服了k-NN噪声剔除法在处理噪声时可能发生的欠处理或过度处理现象，尤其在样本稀疏且数量不足的情况下。自适应噪声处理的流程如表1所示。对于算法 1的第5步：1) 为了减少随机影响，需要多次执行SMOTE，并使用统计均值作为G-mean的决策终值。2) 不需要优化分类器超参数，其原因是算法仅关注错分率，而不是准确性。3) 当出现多个G-mean最大值时，在第一次最大值时选择噪声处理方案，这将在最大程度上保留原始数据集的分布以及更多的少数类实例。表1 自适应噪声处理疑似噪声集决策集的计算方法如式2和式3所示。其中为疑似噪声决策集，是第个疑似噪声的决策值，是权重因子，用于调整距离和样本近邻域密度的相对重要性。 (2) (3)Liu等人[60]提出了一种噪声鲁棒过采样方法，该方法首先采用聚类算法对多数类和少数类进行聚类，然后利用多数类信息安全地为捕获的样本生成新样本。同时，该方法有选择性地删除跨越类边界的样本。虽然这种方法可以缓解多类数据不平衡的问题，但它在处理包含大量边界样本的情况时表现不佳。为了解决噪声过滤方法对参数设置的高度依赖性以及过滤噪声后可能再次出现类不平衡的问题，Dixit等人[61]提出了一种新的基于过采样滤波器的方法，称为SMOTE-TLNN-DEPSO。该方法首先使用SMOTE技术生成合成样本，以增强原始类不平衡数据。接下来，应用双层自然邻居技术用于错误检测，识别噪声和边界样本。最后，该方法不是直接删除识别出的噪声和边界样本，而是利用基于粒子群优化（PSO）的差分进化（DE）算法的混合变体（DEPSO）对样本位置（属性）进行迭代优化和修改。通过解决噪声问题，SMOTE-TLNN-DEPSO技术在性能上优于其他基于SMOTE的过滤方法。该方法的优势包括无参数的最近邻错误检测技术，以及通过DEPSO方法对识别出的噪声样本进行优化，而不是简单删除，从而有助于保持数据的不平衡率并改善边界情况。2）针对类内不平衡问题 Cieslak等人[62]提出了一种基于K-means聚类与SMOTE的过采样算法（Cluster-SMOTE），该方法首先利用K-means对原始少数类进行集群分割，然后在每个子集中应用SMOTE过采样。然而，这种方法的有效性严重依赖于聚类个数的选择。Bunkhumpornpat等人[63]提出了一种基于密度聚类的SMOTE过采样技术（DBSMOTE）。该方法首先执行DBSCAN以发现任意形状的簇，然后在每个簇内执行SMOTE过采样，尤其是在伪质心附近。虽然DBSMOTE避免了合成实例出现在多数类中，但这些实例在质心附近密集，且在远离质心的区域稀疏，从而忽略了接近决策边界样本的重要性。Ma等人[64]提出了一种基于CURE聚类与SMOTE的过采样算法（CURE-SMOTE），该算法首先使用CURE聚类方法对少数类进行聚类，并从原始样本中去除噪声和异常值，然后在代表点和中心点之间进行SMOTE操作。尽管CURE-SMOTE在一定程度上避免了合成实例出现在多数类中，但它仍然在中心点附近密集且远离中心点稀疏，从而忽略了接近决策边界样本的重要性。Douzas等人[65]提出了一种基于K-means与SMOTE的过采样算法，该方法首先通过K-means对所有不平衡数据集进行聚类并滤除噪声，然后选择相对安全的数据样本，利用SMOTE算法合成新数据。虽然K-means SMOTE在一定程度上优于SMOTE和DBSMOTE，但该算法仍未能有效克服噪声问题且容易产生过度拟合现象。Wang等人[66]提出了一种基于层次聚类和改进SMOTE的过采样算法，但该算法加重了类内不平衡且容易产生过度拟合现象。Xu等人[67]提出了一种基于K-means与SMOTE的新颖过采样算法（KNSMOTE），该方法首先对原始样本进行K-means聚类分割，然后选择没有被错分的少数类“安全样本”进行SMOTE过采样。然而，KNSMOTE在缓解类内不平衡方面的能力十分有限，且易发生过度拟合现象。尽管上述方法在一定程度上解决了类内不平衡问题，但它们仍未完全解决过度拟合现象，这主要因为这些算法没有考虑到边界样本的重要性，并且现实中的大多数不平衡数据集包含混叠区域。为此，Keskes等人[68]提出了一种基于内距离矩阵（IntraDM）和距离矩阵（InterDM）的新型过采样技术。该方法旨在减少过度拟合、减少异常值的生成，并最小化重叠区域。此外，我们课题组[27]提出了一种改进的自适应半监督加权过采样技术（IA-SUWO）。该方法综合考虑了类间平均最短欧氏距离和最小二乘支持数值谱，为难学习的边界少数类样本赋予权重。基于这些权重，使用基于k-NN的方法来合成新实例，有效解决了少数类信息量不足的问题。为了验证该算法的有效性，我们将其与10种采样算法和两种集成算法在19个公开的真实数据集上进行了比较。实验结果表明，IA-SUWO算法在大多数数据集上明显优于其他10种过采样方法和两种集成算法。其中，IA-SUWO算法在Banana数据集上的采样和分类效果如图10所示。从图中可以看出，IA-SUWO有效地合成了大量含有重要信息的少数类边界实例，并且新实例分布更加均匀。图10 IA-SUWO在Banana数据集上的采样和分类效果 3）针对类重叠的问题 Barua等人[69]提出了一种多数类加权少数类过采样技术（MWMOTE）。MWMOTE首先识别边界样本，然后根据多数类到难以学习的少数类样本的欧氏距离为少数类样本赋予权重，最后在少数类的子集群中依据权重合成新样本。虽然MWMOTE相较于基于k-NN的过采样算法如BSMOTE和ADASYN具有一定优势，但它可能忽略远离多数类的小尺寸少数类子集群[70]。为了解决这一问题，Nekooeimehr等人[70]提出了一种自适应半监督加权过采样技术（A-SUWO）。该算法在边界样本识别之前，通过半监督层次聚类算法对少数类实例进行聚类分析，并利用分类复杂度和交叉验证自适应地确定每个子群需要合成的新实例数量。尽管A-SUWO在某些方面优于MWMOTE，但其聚类过程较为复杂，且采样效果不显著。为此，我们课题组[28]提出了一种基于凝聚层次聚类的MWMOTE算法（Cluster-MWMOTE）。作为MWMOTE算法的扩展，Cluster-MWMOTE首先利用凝聚层次聚类算法（AHC）对少数类进行无监督聚类。由于该聚类过程相对简单，Cluster-MWMOTE不仅可以避免忽略远离多数类的少数类小尺寸子集群，而且不会显著增加算法复杂性，效果较为理想。Cluster-MWMOTE算法与MWMOTE算法的采样效果对比如图11所示。图11 解决类间和类内问题的不同采样算法比较：（a）使用MWMOTE技术生成的新合成实例的分布；（b）使用Cluster-MWMOTE技术生成的新合成实例的分布。 4）针对多类不平衡问题目前，解决数据不平衡问题的研究主要集中在二类不平衡问题上，但实际应用中，多类不平衡问题更具挑战。因此，在基于马氏距离的过采样（MDO）基础上，Yang等人提出了一种自适应马氏距离过采样（AMDO）方法，旨在解决多类不平衡问题。该方法通过捕获少数类的协方差结构，并沿着概率轮廓生成合成样本。Krawczyk等人[71]提出了一种基于径向的多类过采样（MC-RBO）方法。与仅使用少数类特征的现有多类别过采样方法不同，MC-RBO使用潜在函数生成人工实例。生成过程通过探索相互类分布的值非常小的区域来指导，能够应对困难数据分布并减轻现有方法的缺陷。我们团队[72]提出了一种基于SCOTE的多类LS-SVM状态监测框架。SCOTE利用“One-vs-All”策略将多类不均衡问题转换为多个二类不均衡问题。在每个二类子问题中，首先使用k-NN法过滤噪声；然后，利用最小二乘支持向量机（LS-SVM）的样本错分误差对少数类样本进行重要性排序，并基于k*INN思想合成新样本；最后，当所有二类不均衡问题解决后，多类不均衡问题也会得到解决。为了验证该框架的有效性，将其应用于CWRU、IMS轴承故障以及PHM2010、TTWD刀具磨损状态监测，并与其他16种监测框架进行比较。结果如图12所示，实验表明：SCOTE多类LS-SVM框架在数据有限且多类不均衡场景下的轴承和刀具状态监测中表现优于其他16种流行算法，且具有较强的鲁棒性，更适用于工程实际。为了解决过采样方法生成实例时忽略不同少数类实例之间内在特征，从而使合成实例变得冗余或无效的问题，Han等人[73]提出了一种基于全局-局部的过采样方法（GLOS）。该方法引入了一种新的离散性度量（DID），通过将少数类与每个类级别的离散值进行比较来区分少数类和多数类。然后，选择一些难以学习的实例，这些实例的实例级离散度小于相应类级实例的离散度，并根据离散度差异生成合成实例。这些选定的实例根据其本地分布被分配到不同的组中，并对每个组实例采用特定的合成策略。最终，所有少数类、部分多数类实例和合成数据将被用作训练数据，从而保证了合成实例的数量和质量。CWRU故障监测中多种不平衡分类算法的鲁棒性比较IMS I&II故障监测中多类不平衡分类算法的鲁棒性比较刀具磨损监测中多种不平衡分类算法的鲁棒性比较图12 SCOTE算法在不同数据集中，多类不均衡分类算法的鲁棒性对比虽然上述算法在处理数据不平衡问题上取得了一定成效，但它们主要基于特征向量建模，这可能在非特征向量建模问题（如时间序列数据分类）中效果不佳，或者不能直接应用于其他问题（如图像数据分类）。为了解决非特征向量建模下的不平衡分类问题，近年来研究者们对这些算法进行了扩展。Cao等人[74]提出了一种用于时间序列不平衡分类问题的综合过采样（INOS）技术，该方法主要使用增强结构保留过采样技术（ESPO）来估计少数类实例的协方差，以指导大部分少数类实例的生成。然后，利用ADASYN思想来指导其余少数类实例的合成。INOS旨在获得尽可能真实的均衡数据集。然而，ESPO的协方差思想在很大程度上依赖于原始少数类的样本分布情况，而基于ADASYN的思想可能无法有效处理重要的边界实例，这使得INOS容易受到噪声的影响，从而限制了其实用性。类似地，为了解决更复杂的不平衡序列分类问题（如高度不平衡、高噪声以及多元顺序数据等），Gong等人[75]提出了基于模型的过采样（MBOS）技术。MBOS使用递归神经网络学习序列的生成机制，以表示相应序列，并利用这些生成模型形成内核以捕获不同序列之间的相似性。最终，在内核特征空间中执行SMOTE以合成实例。尽管MBOS在内核学习中考虑了曼哈顿距离度量以确保不同类别的序列保持间距，但其假设序列是线性可分的，并不是所有序列在内核空间中都是可分的，因此该算法在内核空间中执行SMOTE时可能会受到噪声的影响，这也是其鲁棒性未明显优于其他采样技术的原因。Zhu等人[76]提出了一种结构保持的过采样方法（OHIT），用于解决高维不平衡时间序列分类问题。该方法利用基于密度比的共享最近邻聚类算法来捕获高维空间中少数类的模式，并对每种模式应用大维协方差矩阵的收缩技术，以获得准确可靠的协方差结构。最终，基于具有估计协方差矩阵的多元高斯分布生成结构保持合成样本。为了应对非特征向量建模下的关键零部件状态监测与预测，我们课题组[72]提出了一种新框架：基于改进样本特性的过采样技术（ISCOTE）和深度迁移学习技术（VGG16）的端到端多类不均监测框架。由于卷积神经网络（CNN）在提取图像特征方面具有独特优势[77][78]，该框架首先利用VGG16对轴承和刀具的时域振动信号图像进行特征提取，即将图片样本向量化处理。然后，在特征空间内利用ISCOTE进行重采样（不同于SCOTE，ISCOTE可以调节每种少数类样本中需要合成的样本数）。最后，将采样后的特征向量输入多类LS-SVM分类器进行状态监测。该框架的状态监测流程如图13所示。图13 基于迁移学习和协同特征空间重采样策略的工业不平衡异常检测过程为了验证该框架在轴承和刀具状态监测及预测上的有效性和优越性，我们将其与8种流行的算法监测框架应用于IMS、CWRU轴承故障以及PHM2010、TTWD刀具磨损状态监测中。结果如图14所示。实验表明，ISCOTE算法在所有数据集上都取得了最佳结果，这表明该算法能够在特征空间内有效处理经过VGG16迁移学习提取的轴承特征向量，并合成数量合理且分布合理的新特征样本。对于CWRU和IMS数据集，未采样（No-sampling）表现最差，远低于采样的精度。这表明多类不均衡对基于VGG16迁移学习的轴承故障监测带来了极大挑战。其他算法效果不佳的原因包括：a) 部分算法过于复杂，导致效果不佳，例如，A-SUWO的复杂聚类过程使其在所有数据集中均失效；b) ROS、SMOTE、ADASYN、MWMOTE等算法由于固有缺陷，不适合高维不均衡轴承数据的重采样。对于PHM2010和TTWD刀具数据集，未采样的表现并没有像前两个数据集那样最差，反而在PHM2010中表现优于大多数其他算法。这是因为刀具振动数据的信噪比低，且向量化后的特征向量维度很高，导致数据极其稀疏，给传统采样算法带来了挑战。ROS在大多数数据集中表现最差（过拟合现象），证明了这一点。类似地，其余算法效果不佳的原因包括：a) 部分算法过于复杂；b) SMOTE、ADASYN、MWMOTE等算法不适用于高维、稀疏的不均衡刀具数据。图14 9种流行重采样算法在轴承、刀具中的监测结果综上所述，所提的“VGG16+ISCOTE”框架成功地将基于振动信号图片样本的非特征向量多类不均衡分类建模问题转化为特征空间内的特征向量分类建模问题，不仅避免了人工特征设计过程，还在轴承和刀具状态监测中取得了优异的结果。过采样方法通过增加少数类样本的数量，可以有效解决噪声问题、类内类间不平衡、多类不平衡、时间序列不平衡和类重叠问题，从而提高分类器对少数类的识别能力。然而，过采样方法也存在一些缺陷和局限性，例如可能导致过拟合问题，增加计算成本和时间开销，以及可能引入冗余信息和噪声样本。因此，在应用过采样方法时需要谨慎选择合适的算法和参数设置，以平衡增加样本数量和保持数据特征的准确性。4.1.3 混合采样技术欠采样和过采样技术都有一定的缺点和优势，为了取得更好的采样效果，许多的研究人员将过采样和欠采样技术相结合，即混合重采样[79]。 1）针对噪声问题Batista等人[80]提出了SMOTE与Tomek Links相结合的混合采样技术（SMOTE-Tomek Links），该方法在处理噪声问题上优于标准SMOTE。陶等人[81]提出了一种结合逐级优化递减欠采样（ODR）和BSMOTE过采样的混合技术（ODR-BSMOTE）。该方法首先通过ODR去除大量冗余和噪声样本，从而保留更多有效特征信息；随后，利用BSMOTE仅在边界处合成新样本以平衡数据集。然而，由于数据分布的复杂性，准确识别真实噪声实例有时具有挑战性。为此，Zhang等人[82]提出了一种基于SMOTE和逆k近邻（RkNN）的混合重采样方法（SMOTE-RkNN），该方法通过RkNN为每个实例提供概率密度信息，并利用这些信息识别和删除噪声实例。但该方法主要对二类不平衡问题效果良好，对多类不平衡问题效果较差。2）针对类内类间不平衡问题Song等人[83]提出了一种基于K-means方法的双向采样技术，该方法通过保留多数类样本的聚类中心来进行欠采样，同时对少数类进行K-means聚类，选择样本分布稀疏的较小聚类进行SMOTE过采样。Pruengkarn等人[84]提出了结合模糊C均值聚类（FCM）和SMOTE的混合方法，称为FCMSMT。该方法通过将SMOTE与模糊C均值聚类结合，使得所有类具有相似数量的样本，并从每个集群中随机选择至少一个实例，从而解决类内和类间的不平衡问题。针对多类标签条件下少数类实例存在的类内不平衡问题，Liu等人[85]提出了基于局部标签不平衡的多标签合成过采样（MLSOL）和多标签基于局部标签不平衡的欠采样（MLUL）。MLSOL通过考虑所有信息标签，为困难示例创建更多样化且更好标记的合成实例，而MLUL则消除本地区域内有害的实例。为揭示类内不平衡和类间不平衡，Jiang等人[86]提出了一种半监督混合重采样（SSHR）方法，该方法利用半监督聚类来捕获过采样和欠采样的数据分布。首先，使用半监督层次聚类算法（SSHC）对数据进行标记，以指导整个数据集的聚类过程。然后，根据SSHC的结果进行混合重采样。多数类的标记数据根据其与聚类质心的距离以及与少数类聚类质心的邻接度进行欠采样。此外，该方法利用新颖的过采样方法，选择少数族群中的一些自信未标记数据作为伪标记数据，扩大训练集，从而帮助发现更多关于少数类分布的信息。3）针对多类不平衡问题Zhang等人[87]提出了一种改进的AdaBoost.M2算法，旨在解决多类不平衡协议流量问题。该算法首先通过计算所有类别样本的平均值来确定随机区间和采样平衡点，从而区分多数类和少数类。接着，对权重较大的少数类样本进行SMOTE过采样，并对权重较大的多数类样本进行聚类欠采样，以确保分类器对样本的充分学习。J. Rodríguez等人[88]提出了一种随机平衡集成方法，该方法使用随机生成的先验进行采样，并将随机平衡方法扩展到多数类不平衡数据集中。针对多类环境中的不平衡和概念漂移问题，Han等人[90]提出了基于混合采样和动态加权的多类不平衡数据流分类方法（HSDW-MI）。在混合采样阶段，该方法使用自适应谱聚类对聚类后的数据进行采样，保持原始数据分布；然后，根据样本的安全系数确定每类的抽样样本。在每个集群中，安全样本被过采样，不安全样本被欠采样。如果数据流极度不平衡，则从样本存储池中提取安全系数高的样本加入数据流。在动态加权阶段，该方法使用基于G-mean值的动态加权方法，G-mean值作为集成中每个基分类器的权重，集成在数据流处理期间动态更新，以适应概念漂移的发生。Grina等人[91]提出了一种基于信念函数理论和集成学习的重采样方法来处理多类不平衡问题。该方法首先对模糊的多数类实例进行欠采样，然后通过在边界区域生成合成样本来对少数类对象进行过采样，以改善少数类的边界。最后，为了提高模型效果，该重采样方法被整合到一个基于证据的、与分类器无关的融合集成方法中。4）针对类重叠问题Mahadevan等人[92]提出了一种混合采样技术，将SMOTE与随机欠采样方法结合。在数据预处理阶段，该方法对多数类和少数类分别进行欠采样和过采样，并将合成样本组合在一起。然后，将平衡后的样本实例进一步划分为N个子集，供基分类器进行训练，以提高分类器的时间效率。然而，许多研究人员认为，将SMOTE与欠采样方法相结合的方式无法完全避免SMOTE过拟合的缺点。因此，Hartono等人[93]提出了混合方法重新定义-多类不平衡（HAR-MI）方法，该方法根据类的重叠情况对多类进行平衡处理，并使用基于少数类过采样（M-SMOTE）与编辑最近邻（ENN）分别对少数类和多数类进行采样。Gao等人[94]提出了用于重叠区域的混合采样方法（OverlapRHS），该方法利用支持向量数据描述技术在多数类和少数类样本上分别构建重叠检测模型。通过将合成的少数类样本与邻域清洗相结合，对重叠数据区域内的样本进行混合采样。实验结果表明，该方法能够有效检测不平衡数据集中的重叠数据，改善了分类器训练效果。为了应对小样本异同问题、边界和稀有样本问题、以及类之间的重叠，Mostafaei等人[95]提出了欠采样加权平均边界SMOTE（USWAVG-BS）。该方法包含三个阶段：在第一阶段，特征空间被转化为异构值距离度量（HVDM）空间，并使用一个基于不平衡率的新公式来识别来自多数类的噪声示例。在第二阶段，来自多数类的噪声示例要么被转换为少数类，要么被移除，直到达到两个类之间的特定阈值。在最后一个阶段，使用类似于Safe-level-SMOTE和LN-SMOTE的方法生成新示例，通过强调少数类区域来进一步提升少数类的表现。混合采样技术通过增加少数类样本和减少多数类样本的数量来实现数据集的平衡。与单纯的欠采样方法相比，混合采样技术能够保留更多有价值的少数类样本信息，减少信息丢失。同时，相对于过采样方法，混合采样能够降低过拟合风险，减少重复样本和噪声样本的影响。然而，混合采样方法也存在一些局限性，如：1. 参数选择的挑战：混合采样方法通常涉及选择不同的采样策略和参数，这需要对数据集的特点有深入的理解和合理的调整，否则可能影响采样效果。2. 模型依赖性：混合采样方法的效果可能依赖于具体的分类模型。对于不同的算法和任务，选择适合的混合采样策略可能存在挑战。3. 信息损失问题：在过采样和欠采样的过程中，可能会导致信息的损失或变形，尤其是在少数类样本稀少、数据分布复杂的情况下，需要谨慎处理采样过程中的信息损失问题。总体而言，尽管重采样技术在不平衡分类问题上具有广泛适用性和灵活性，目前的研究仍面临一些挑战，特别是在处理复杂的不平衡分类问题时。现阶段的研究主要集中在基本的不平衡分类情况，如二类别不平衡问题。然而，在实际应用中，我们常常面临更复杂的场景。一方面，高噪声问题是不平衡分类中的一个重要挑战。在现实世界的数据集中，存在大量噪声样本，这些样本可能对重采样方法产生负面影响，导致虚假的合成样本或错误地剔除有价值的样本。因此，如何在重采样过程中准确处理噪声样本仍是亟待解决的问题。另一方面，小样本下的高度不平衡问题也具有挑战性。在某些领域，如医学诊断或金融欺诈检测，可用的少数类样本非常有限，而多数类样本数量庞大。在这种情况下，如何有效利用有限的少数类样本，并保持数据的代表性和多样性，仍然是一个研究难点。同时，类内类间不平衡问题也是一个复杂的挑战。在某些情况下，不同类别之间的不平衡性可能同时存在于类内和类间，使数据分布更加复杂。针对这种情况，如何采用合适的混合采样策略来平衡类别间的不平衡性，同时保持类内的多样性和信息完整性，仍需深入研究。此外，高维不平衡问题、多类不平衡问题以及涉及时间序列分类、图像不平衡分类等非特征向量不平衡分类问题，现有的重采样方法在处理上也存在一定的局限性。这些问题需要结合领域特定的知识和技术，发展针对性的重采样策略和算法，以更好地应对复杂的不平衡分类情况。4.2 过采样技术生成对抗网络随着深度学习模型展现出强大的生成能力，这些模型也逐渐被引入到解决数据不平衡分类的问题中，其中生成对抗网络（GANs）[96] 是最常用的一种生成模型。GANs能根据原始数据分布生成与原始数据集相似的新样本，因此，GANs 可以被视为一种特殊的过采样技术。如图15所示，GAN 由一个生成器（G）和一个判别器（D）组成[97]。图15 GAN的生成过程在模型训练过程中，生成器 G 的目标是生成更加逼真的假样本，而判别器 D 的目标则是不断提高对真假样本的判别能力。通过两者的博弈，最终达到纳什均衡，此时生成的伪样本具有真实样本的特征，可以用于辅助训练。具有代表性的研究包括：Zhang 等人[98] 提出了一种基于深度学习的故障诊断方法，使用 GANs 来学习噪声分布与真实机械振动数据之间的映射，通过该方法生成额外的真实假样本以平衡并扩展可用的数据集。Guo 等人[99] 应用了一个一维辅助分类器GAN 来生成故障数据，然后利用合成数据和真实数据训练分类器，以进行不平衡数据的诊断。为了解决在不平衡数据集上基于深度学习的故障诊断性能恶化的问题，Wang 等人[100] 提出了一种新颖的双注意力生成对抗网络（DAGAN）。该方法首先构建注意力模型以选择性地增强每个位置的特征，并自适应地融合相互依赖的通道图。然后，将注意力模型嵌入到 GAN 中，以改进特征表示。DAGAN 可以有效地学习故障相关特征并生成足够的故障样本，从而在重新平衡的数据集上训练诊断模型，提高分类性能。虽然许多方法使用 GAN 解决不平衡问题，但大多数方法并未有效利用分类器与生成器之间的关系。因此，Choi 等人[101] 提出了一种新颖的三方结构，包括鉴别器、生成器和分类器，并结合决策边界正则化。该方法通过生成器和分类器的协作训练，生成少数类样本，逐渐扩大少数类决策区域，从而提高不平衡数据分类的性能。针对传统 GAN 在高度类不平衡数据集中生成少数类样本的问题，Dai 等人[102] 使用平衡 GAN 和梯度惩罚（BAGAN-GP）来生成不同的少数类样本。为了更好地解决极度不平衡条件下的数据增强问题，Li 等人[103] 提出了极度不平衡数据增强生成对抗网络（EID-GAN）。该模型利用新的惩罚函数，通过从生成实例的裁剪区域中减去异常值来引导生成器学习异常值的特征，并将惩罚函数的输出值与生成器损失结合，联合更新生成器的参数。此外，该模型还使用新的评估方法（如两个离群值检测器和 k-fold 交叉验证）来评估生成实例的可用性。由于不平衡数据中常常伴有噪声和类重叠问题，但大多数基于 GAN 的样本生成方法未涉及这些问题。Li 等人[104]提出了辅助生成相互对抗网络（AGMAN）。首先，生成器结合自动编码器（AE）构建解码器重构特征损失，以协助精确映射噪声分布与真实数据分布，生成高质量的假样本来补充不平衡数据集，提高小样本类不平衡故障诊断的准确性。其次，鉴别器引入了具有非共享双鉴别器的结构，通过设置双鉴别器的对立评分标准，实现双鉴别器之间的相互对抗，从而提高生成样本的质量和多样性，避免模式崩溃。最后，交替更新辅助生成器和双鉴别器，以生成同时欺骗两个鉴别器的假样本，并通过对偶判别器实现纳什均衡。为了解决 GAN 在拟合样本分布时的问题，Ding 等人[105]提出了基于轮盘赌选择方法的训练样本选择策略，使 GAN 更加关注类重叠区域。该方法设计了两种生成器训练损失，并提出了一种噪声样本过滤方法来提高生成样本的质量。然后，使用改进的 RGAN 对少数类样本进行过采样，以获得平衡的训练样本集，并结合集成学习策略进行训练和预测。此外，Zhang 等人[106] 提出了使用 GAN 框架的新型过采样方法，即G-GAN。在该方法中，估计少数样本的高斯分布以获得 GAN 潜在空间的少数类先验知识。通过采用混合策略获取噪声，生成器的一些噪声服从高斯分布，另一些服从随机分布。利用 Bagging 思想训练 G-GAN 生成分散的正样本，以避免过拟合。针对当前基于 GAN 的方法无法同时从时频域更新生成器的问题，Wang 等人[107] 提出了类傅里叶变换 GAN（FTGAN）。该方法通过引入基于自动编码器（AE）的类傅里叶变换（FLT）来提高合成数据质量。尽管GAN 在缓解数据不平衡问题上具有潜力，但仍面临一些问题，如梯度消失（当真实样本和生成样本之间的重叠极小或没有重叠时，Jensen-Shannon 散度成为常数，导致优化目标不连续）[108] 和模式崩溃（生成数据缺乏多样性）等。为解决这些问题，Arjovsky 等人[109] 提出了 Wasserstein GAN（W-GAN）。W-GAN用 Earth-Mover 距离代替 Jensen-Shannon 散度来度量真实样本和生成样本分布之间的距离，并用一个批评函数 f 替代 GAN 的判别器，批评函数f 需要建立在 Lipschitz 连续性假设上。尽管 W-GAN 彻底解决了训练不稳定和模式崩溃的问题，但也容易造成过拟合。为此，Liu 等人[110] 提出了结合深度遗憾分析的变分自编码生成对抗网络方法。该方法将变分自编码器与 GAN 相结合，学习真实数据的深层特征，并对结合 deep regret analysis 方法的判别器施加梯度惩罚，以避免模式崩溃，同时在生成器中采用特征匹配模块来防止过拟合。Ren 等人[111] 提出了 Few-shot GAN，该方法首先使用样本丰富的类进行预训练，然后开发基于锚样本的微调策略，使生成的样本既接近真实样本，又尽可能保留学习到的复杂样本分布。Liu 等人[112] 提出了深度特征增强生成对抗网络，用于合成故障类别，以解决轴承诊断能力的不平衡问题。该方法通过拉离函数、自注意机制和自动数据滤波分别克服了原振动样本的模式崩溃问题、深度特征强化学习问题和新样本的准确性及多样性问题。针对时间序列不平衡问题，Lee 等人[32] 提出了基于模型的过采样方法——以边界为中心的生成对抗网络（BFGAN）。该方法通过专门设计的附加标签来反映样本在数据空间中的位置重要性，并通过使用修改后的 GAN 结构生成人工样本。尽管生成对抗网络（GANs）在解决数据不平衡问题上取得了一定成果，但仍存在一些缺点和挑战。除了未能彻底解决梯度消失和模式崩溃问题外，基于 GAN 的不平衡分类方法还需考虑以下问题[113]：1. 训练资源消耗大：GAN 的训练通常需要大量的计算资源和时间。生成器和判别器具有复杂的结构和较大的参数量，对计算能力的要求较高，这可能限制了其在资源有限环境下的应用。2. 训练时间长：由于 GAN 的训练过程需要多轮迭代，每轮都需要更新生成器和判别器的参数，因此训练时间较长。对于大规模数据集或复杂任务，训练时间可能会进一步增加。3. 难以衡量训练进度：GAN 的训练过程中很难准确评估训练进度和生成样本的质量。缺乏明确的损失函数来直接衡量生成样本的质量，使得难以确定何时停止训练或进行调整。4. 不适合离散数据生成：GAN 主要用于生成连续型数据（如图像），对于离散型数据（如文本或分类标签）的生成可能效果不佳。生成离散数据仍然是一个挑战，需要采用其他方法和技术进行处理。5. 模型自由度高且不可控：GAN 的生成器在学习过程中具有一定的自由度，可能会生成看似真实但实际上不存在的样本。在某些应用场景中，这种情况可能不可接受。需要对生成器进行约束或设计合适的机制，以确保生成的样本符合实际情况。6. 可解释性差：GAN 生成的样本通常缺乏解释性，即很难理解生成样本的生成原理和背后的数据分布。在一些领域（如医疗、金融等），解释性对于决策的可靠性和可信度至关重要，因此需要关注生成样本的可解释性问题。4.3 特征提取当数据维度较高时，类不平衡问题会加剧。重采样方法往往难以有效解决高维类不平衡问题[114]。相较而言，特征选择方法通过削弱数据集中不平衡的影响因素，甚至可以作为解决高维数据中类不平衡问题的单独方案[115]。特征选择的核心在于通过特定规则从特征集合中挑选出区分多数类和少数类的关键特征，从而增强类别间的区分度，提高分类准确性。按照所选取的方式是否与分类器相关，特征选择可分为3种模型，如：过滤法（Filter）、嵌入法（Embedded）和包装法（Wrapper）[116]。过滤式特征选择方法[117]独立于分类器，按照一定的评价准则选出原始特征集中的特征子集。虽然复杂度低、通用性强，但分类准确率比较低。封装式特征选择方法[118]与分类器结合，通过顺序式或启发式搜索策略选择有较高分类准确率的特征子集，但在选择过程中需要根据分类器的训练和测试结果来判断子集的好坏。因此，计算代价较大。嵌入式特征选择方法[119]在分类过程中进行特征选择，该方式能有效解决封装式特征选择方法计算代价较大的问题，并且有很好的分类精度。具有代表性的研究如：Hou等人[120]通过一系列对比实验验证了Relief（基于最近邻规则的特征选择度量）、FAST（滑动阈值的特征评估）等过滤式特征选择方法的有效性。Yin等人[121]提出了一种基于类分解的新特征选择方法，其首先将多数类划分为相对较小的伪子类，并生成相应伪类标签；然后，对新分解的数据执行特征选择，以计算特征基于Hellinger距离的最优度量，该过程能在一定程度上克服样本分布不均衡对分类器的影响。Maldonado等人[122]采用嵌入式的特征选择方法选出有利于识别目标类别的属性去解决高维数据不平衡的问题。Zhou等人[123]提出了一种基于K近邻依赖性的在线特征选择(K-OFSD)，在邻域粗糙集理论方面，K-OFSD 使用最近邻的信息来选择相关特征以获得多数类样本和少数类样本之间更高的可分离性。为了更好地解决高维不均衡问题，Maldonado等人[124]提出了一种通过缩放因子来惩罚特征集基数，并与代价支持向量机（Cost SVM）、支持向量数据描述相结合的特征选择方法。针对具有缺失值得高维不平衡数据，Zhang等人[125]提出了一种新的进化特征选择方法，该方法首先定义了基于填充风险的改进 RF-度量（RF-measure）来评估类不平衡情况下缺失数据对特征选择的影响，并以 RF-measure 为目标函数，提出了一种基于粒子群优化的模糊聚类特征选择方法。由于现有的基于邻域粗糙集的特征选择方法容易忽视数据分布的多样性和复杂性，难以从不平衡和高维数据集中获得这种全局最优特征子集。因此，Sun等人[126]提出了一种新的两阶段特征子集选择方案。首先，为了评估不同特征的分布，引入标准偏差系数来构造模糊多邻域半径集。然后，提出了模糊多邻域粒和模糊隶属度来建立新的 FMRS，并发展了代数角度的特征显着性度量，以平衡负类和正类中不同特征的近似性质和影响。其次，定义模糊多邻域条件熵，从信息的角度最大化类不平衡数据的信息量，然后通过融合上述两个评估视角，提供这种混合度量来充分评估类不平衡数据集的这种不确定性。这些内部和外部重要指标旨在获得此第一阶段基于过滤器 FMRS 模型的预选候选特征集。第三，可以开发一个控制因子来控制鲸鱼位置更新，当将依赖度和熵度量与缩减率相融合时，将构建一个新的适应度函数来评估这个最优特征子集。上述方法通过选择具有显著差异的特征来提升样本分类的准确性，但这种方法也容易导致部分重要信息的丢失，从而影响后续的分类建模。此外，目前的特征层面不平衡分类方法主要集中在特征选择上，而从特征提取角度根本性地解决不平衡分类问题的研究仍较为有限[127]。幸运的是，深度学习模型在特征提取方面展示了巨大的潜力，为在特征层面解决不均衡数据分类问题提供了新的思路[77]。例如：Ng等人[128]提出了一种基于双自动编码器网络的特征学习方法，旨在解决不均衡分类问题。Kumar等人[129]结合了基于深度残差网络（ResNet152）的深度特征学习算法和SMOTE算法，共同解决不均衡图片分类问题。Luo等人[130]提出了一种新颖的发散鼓励自动编码器，能够同时对多数类和少数类进行特征学习。为了减少维数灾难和过拟合，Subbiah等人[131]提出了一种基于深度学习的长短期记忆网络（LSTM）结合混合特征选择的方法（RMR-HFS-LSTM）。该方法将过滤器与包装器结合，用于识别最佳特征子集。通过基于实例的RReliefF和基于信息论的互信息滤波器特征选择，去除不相关特征以减少维数灾难，最后使用递归特征消除（RFE）包装器特征选择来调整过滤器选择的特征，从而减少过度拟合。Abdoli等人[132]提出了Bagging监督自编码器分类模型（BSAC），将监督自编码器与特征学习结合，用于分类样本，并利用Bagging机制处理特征空间中的不规则性。在当前的研究中，特征选择方法在应对高维类不平衡问题方面展示了明显的优势。通过选择具有显著差异的特征，特征选择能够增加多数类和少数类之间的区分度，从而提高分类的准确性。然而，这些方法也存在一些局限性。首先，特征选择可能导致重要信息的丢失，从而影响后续分类模型的性能。其次，目前的特征层面不平衡分类方法主要侧重于特征选择，而从特征提取角度解决不平衡分类问题的研究相对较少。特征提取通过深度学习模型挖掘数据集中的潜在特征，显示出很大的潜力。然而，在处理不平衡分类问题时，特征提取仍面临一些挑战：1. 数据需求：特征提取通常需要大量标记数据来训练深度学习模型，而在不平衡分类中，少数类样本往往稀缺，这可能导致模型学习到的特征不够充分或不够准确。2. 计算复杂度：深度学习模型的训练复杂度较高，尤其是在处理高维数据时，需要更多的计算资源和时间。3. 过度拟合风险：特征提取可能引入过度拟合问题，特别是在数据集非常不平衡且样本量有限的情况下，模型可能过度关注多数类样本，从而忽视少数类样本的特征。尽管特征提取在处理不平衡问题上具有显著潜力，但仍需进一步研究和探索如何有效应用深度学习模型进行特征提取，以应对复杂的不平衡分类问题。需要克服数据不足、计算复杂度高和过度拟合等挑战，以提升特征提取方法在不平衡分类中的效果和实用性。4.4 分类器改进标准分类器在处理不平衡数据时通常倾向于多数类，从而忽略少数类，导致分类效果不佳。为了解决这一问题，研究人员从算法机制出发，并结合不平衡数据的特点，对现有分类算法进行了改进，以提升少数类样本的识别率。常见的改进方法包括：代价敏感法[133]、单类学习法[134]、集成学习法[135]等。4.4.1 代价敏感法标准分类器通常以最小化误分率为目标，并假设各个类别的误分代价相等。然而，在实际应用中，各类别的误分代价往往不同。因此，许多研究人员建议在训练分类器时，应重点关注误分代价较高的样本，提出了基于代价敏感理论的分类方法[136]。在类别不平衡问题中，少数类样本通常更为关键，因此，通过提高少数类的误分代价，可以提升分类模型的整体性能。当前的代价敏感学习方法主要包括代价敏感直接学习[137]和代价敏感元学习[138]。代价敏感直接学习通过对标准分类器进行改造，使其目标从最小化错分率转变为最小化错分代价，从而实现代价敏感分类。代价敏感元学习则通过将样本的错分代价以样本权重的形式体现，并基于这些权重对样本集进行重构[127]。一些典型研究包括：Dhar等人[139]和Gu等人[140]将代价敏感思想引入支持向量机中，为不同类别样本赋予不同的错分代价因子，以最小化整体错分代价。Zhang等人[141]提出了一种基于“OVO”策略的代价成本敏感反向传播神经网络，以减少整体错分代价。Sahin等人[142]和马等人[143]将代价敏感思想应用于决策树，在计算分裂属性和剪枝等阶段，提升少数类样本的重要性。Wei等人[144]将不同惩罚因子(DEC)策略引入到不均衡分类的模糊支持向量机(IF-SVM)中，以确保少数类样本的重要性，这也体现了代价敏感的思想。最近，代价敏感学习思想被引入深度学习领域。Khan等人[145]提出了一种基于代价成本敏感的深度神经网络，自动学习多数类和少数类样本的稳健特征表示，从而增强特征的鲁棒性和判别性。Wu等人[146]提出了一种深度对抗转移学习模型，使用代价敏感的深度分类器来解决类不平衡问题。Ren等人[146]则提出了一种自适应计算样本成本的策略，解决了敏感学习中设置最优成本的困难。Zhang等人[147]提出了一种新型的代价敏感深度学习框架，专门用于解决时间序列分类中的不平衡问题。尽管代价敏感学习在解决不平衡分类问题上具有显著优势，但也存在一些局限性。首先，这些方法可能对数据集的分布和不平衡程度非常敏感。在极端不平衡的情况下，少数类样本数量极少，模型可能仍然难以充分学习到少数类的特征和模式，导致分类性能下降。其次，代价敏感学习方法通常需要额外的参数调整和模型训练，这增加了模型开发和调优的复杂性。此外，代价敏感学习要求准确定义和估计不同类别之间的代价或误分类成本，这可能需要领域专家的知识和经验，并需仔细权衡各种成本因素。如果代价估计不准确，可能导致模型决策产生误差。对于许多复杂任务，人类难以准确分配或识别不同类型的误分类代价[148]，且人工设计的代价可能引入偏见。为了解决这些问题，研究者们开始将进化计算应用于代价敏感学习中[149]，如利用遗传算法（GA）[150]、遗传规划算法（GP）[151]、粒子群优化算法（PSO）[152]、回溯搜索优化算法（BSA）[153]、差分进化算法（DE）[154]等对代价矩阵进行优化[155]–[158]。虽然这些算法在代价矩阵优化方面显示出一定的有效性，但仍面临一些问题和挑战。4.4.2 单类学习法在实际工业场景中，故障样本的收集往往非常困难，因此研究人员提出了利用单一类别样本来训练分类模型的方法[159]。单类学习法的核心思想是只对多数类样本进行学习，而忽略少数类样本，将多数类样本视为目标类别，其他样本视为离群点。由于该方法专注于多数类而忽略其他类别的信息，Bellinger等人[160]和Hempstalk等人[160]建议应谨慎使用单类学习法。然而，Krawczyk等人[161]认为，单类学习能够识别目标类与其他类别的独特特征，因此适用于处理类不平衡、类噪声和类重叠等复杂数据分类问题。Yin等人[162]通过自适应调整样本权重来解决单类支持向量机对噪声样本的敏感性。Luca等人[163]使用单类支持向量机来解决异常检测中的正常数据与故障数据的极端不平衡问题。Perez-Sanchez等人[164]指出，单类学习不需要考虑类别的不平衡性，因此可以训练出无偏的模型，从而对不平衡问题具有较好的鲁棒性。尽管单类学习可以有效减少训练成本，并对少数类样本不敏感，但该方法也存在一些局限性。首先，单类学习容易导致过度拟合，从而削弱模型的泛化能力。其次，现有的单类学习方法对阈值和核函数的选择高度依赖，这显著影响了其性能[127]。4.4.3 集成学习法与传统方法中只训练单个学习器不同，集成学习通过将多个弱分类器组合起来进行决策，从而提高整体准确度。然而，集成方法在处理类别不平衡问题时存在挑战[165]，因此通常需要与其他平衡策略结合使用，以更有效地解决不平衡分类问题。目前，典型的解决方案包括：结合重采样技术的集成学习算法和基于代价敏感学习的集成学习算法。在将重采样方法与集成学习相结合时，可以进一步分为基于Bagging、基于Boosting以及混合集成的不平衡处理方法。其中，基于Boosting的方法通过调整训练数据的分布，重点关注少数类样本[127]。基于Bagging的方法则旨在获得有效的分类器，并保持基分类器的多样性[127]。例如，Chawla等人[166]将SMOTE与Boosting技术结合（SMOTEBoost），Seiffert等人[167]将随机过采样算法（RUS）与Boosting技术结合（RUSBoost），Wang等人[168]将SMOTE与Bagging算法结合（SMOTEBagging），Lu等人[169]结合了混合采样技术与Bagging算法，以提升不均衡分类效果。Sun等人[170]将SMOTE与具有差分采样率（DSR）的Bagging集成学习算法结合来处理不均衡数据，而陈等人[171]则将SMOTE、Bagging和Boosting技术结合（Rotation SMOTE）来间接增加少数类样本的采样权重，从而提升少数类样本的识别率。与单纯使用代价敏感学习算法不同，代价敏感集成学习方法通过集成学习算法来实现总体错分代价的最小化，而不是依赖单一分类器来体现不同类的错分代价，这避免了基分类器参数不断调节的过程。目前，代价敏感集成学习的常见方法包括利用不同策略更新Adaboost的类别权重。代表性的研究包括：AdaCost、AdaC1、AdaC2和AdaC3算法[172]，这些算法在权重更新中引入了不同的代价。Masnadi-Shirazi等人[173]提出了一种新颖的基于代价敏感的Boosting算法框架，该框架通过在弱学习器的凸组合功能空间中推导出成本敏感损失，并利用梯度下降最小化这些损失，从而产生适合不均衡分类的提升算法。Krawczyk等人[174]通过集成多个代价敏感分类器有效提升了少数类样本的识别率。付等人[175]提出了一种适用于多标签问题的代价敏感集成学习算法，该算法通过自动学习多个弱分类器组合成强分类器来降低平均错分代价。Wong等人[176]结合代价敏感深度神经网络（CSDNN）与代价敏感深度神经网络集成（CSDE），利用随机欠采样和逐层特征提取来提升CSDNN的泛化性能。肖等人[177]将元代价敏感学习、半监督学习和Bagging等技术结合，提出了一种基于元代价敏感模型的半监督集成方法（SSEM），以解决高度不平衡条件下模型性能低下和大量无标签数据浪费的问题。尽管集成学习在处理不均衡数据时具有一定的优势，但也存在一些局限性：a) 不适用于高维不均衡数据，b) 基分类器类型和数量难以精确选择，以及c) 训练过程复杂且时间成本高[127]。综上，分类器改进在解决不平衡分类问题上具有一定优势。代价敏感法通过调整不同类别之间的代价权重，能够更好地处理不平衡数据集。它考虑了类别不平衡对分类性能的影响，赋予少数类别更高的代价，使模型更关注于正确分类少数类样本。这样可以提高整体分类性能。代价敏感法还具有灵活性和可调节性，可以根据实际需求对不同类别的代价进行调节，以平衡不同类别之间的分类关注度。单类学习法主要关注于少数类别的分类，忽略多数类别。这种方法可以更加专注地学习少数类别的特征和模式，提高对少数类别的识别能力。同时，单类学习法通过忽略多数类别，减少了多数类样本对模型训练的干扰，进一步提高了对少数类别的分类效果。集成学习法通过结合多个分类器的预测结果，能够获得更稳健和准确的分类结果。在处理不平衡数据时，集成学习方法可以通过对多个分类器的加权投票或结合基分类器的输出概率来提高对少数类别的分类准确度。此外，集成学习方法还可以通过均衡样本分布、引入重采样技术或基于集成权重的策略，缓解不平衡数据带来的问题，提高少数类别的识别能力。然而，这些方法也存在一些缺陷需要深入探究。代价敏感法的关键在于合理设置代价权重，但如何确定权重的选择并没有明确的标准，需要经验和试验来进行调优。单类学习法主要适用于那些仅有少数类别的问题，而对于多类别问题，单类学习法可能无法有效处理。集成学习方法的性能高度依赖于基分类器的质量和多样性，如果基分类器之间存在较高的相关性，集成学习的效果可能会受到限制。因此，在应用这些算法时需要综合考虑它们的优势和局限性，并根据具体情况选择适合的方法来解决不平衡分类问题。近年来，随着机器学习和数据科学的发展，涌现了许多解决不平衡数据问题的方法。其中包括重采样、特征选择和分类器改进等技术。如表2所示，这些方法在处理不平衡数据时，各自具有独特的优势和缺点。然而，在现实世界的工业场景中，我们很少会孤立地使用某一种方法来应对不平衡数据的挑战[178]。相反，通过综合运用多种方法，我们能够更加高效地应对这一问题。例如，可以先使用重采样技术平衡数据集，然后再应用特征选择方法来选择最具区分能力的特征子集，并结合分类器改进方法来提高分类器的性能。表 2 不均衡分类方法的优缺点编辑：李正平校核：陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超该文资料搜集自网络，仅用作学术分享，不做商业用途，若侵权，后台联系小编进行删除来源：故障诊断与python学习

有附件