论文题目:
Review of resampling techniques for the treatment of imbalanced industrial data classification in equipment condition monitoring
论文期刊:Engineering Applications of Artificial Intelligence
论文日期:2023年8月
论文链接:
https://doi.org/10.1016/j.engappai.2023.106911
作者:Yage Yuan , Jianan Wei , Haisong Huang
机构:
Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China
作者邮箱:
魏建安,工学博士,贵州大学特聘教授,硕导,贵州省“产业技术创新副总”,研究方向为制造大数据与制造信息系统、航空航天领域关键零部件智能制造与运维、医工领域数据与图像处理等。主持国家级、省部级课题4项;发表相关领域论文近30篇,其中一作或通信发表SCI 1区Top论文8篇、2区论文1篇(综述),单篇最高被引150余次;科学出版社出版工业大数据与智能运维领域学术专著1部;授权国家发明专利3项;担任《航空动力学报》(EI)、《工业工程》、《数据采集与处理》、《中国测试》等领域知名期刊的青年编委;担任中国图学学会(CGS)可视化与认知计算专委会委员、中国图学学会(CGS)青年工作委员会委员、中国机械工程学会(CMES)工业大数据与智能系统分会专委会委员、中国图形图像学会(CSIG)遥感图像专委会委员、中国自动化学会(CAA)动态学习与智能医学专委会(筹)专委会委员、全国材料与器件科学家智库-电子信息材料与器件专家委员会常务委员等学术兼 职。
黄海松,工学博士、教授,博士生导师,贵州大学现代制造技术教育部重点实验室常务副主任、贵州省百层次创新人才,贵州省省管专家,贵州省科技拔尖人才、重庆市“巴渝学者讲座教授”,中国机械工程学会工业大数据与智能系统分会专委会委员、中国计算机学会工业控制专委会委员、《计算机集成制造系统》理事会理事、中国图学学会数字孪生专委会委员,以第一完成人或者主要完成人获得省部级科技进步奖一、二、三等奖励5项。
3.1 小样本不平衡下的噪声
3.2 小样本下的类内类间不平衡
3.3 小样本下的多类不平衡
3.4 时间序列下的小样本
4.1 重采样技术
4.1.1 欠采样技术
4.1.2 过采样技术
4.1.3 混合采样技术
4.2 生成对抗网络
5 重采样技术在工业不平衡数据处理中的应用
6 工业不平衡异常监测中的困难和挑战问题
7 总结
4.1.2 过采样技术
图8 SMOTE技术的采样过程
因此,SMOTE能够生成不同于原始数据的新实例,从而克服随机过采样方法的过拟合问题。然而,使用K-NN方法进行插值合成新样本时,可能会面临以下问题[21]:
1)针对噪声问题
Rivera[58]提出了一种噪声减少的先验合成过采样(NRAS)方法,该方法通过生成一个新特征来表示少数类成员的概率,并去除那些表现为噪声的少数类样本。Thanh Vo等人[59]提出了一种噪声自适应合成过采样技术,其核心在于根据数据噪声比的概念(即样本到其k个最近邻中同一类样本的距离之和)来确定为少数类样本生成的新样本数量。
表1 自适应噪声处理
Liu等人[60]提出了一种噪声鲁棒过采样方法,该方法首先采用聚类算法对多数类和少数类进行聚类,然后利用多数类信息安全地为捕获的样本生成新样本。同时,该方法有选择性地删除跨越类边界的样本。虽然这种方法可以缓解多类数据不平衡的问题,但它在处理包含大量边界样本的情况时表现不佳。为了解决噪声过滤方法对参数设置的高度依赖性以及过滤噪声后可能再次出现类不平衡的问题,Dixit等人[61]提出了一种新的基于过采样滤波器的方法,称为SMOTE-TLNN-DEPSO。该方法首先使用SMOTE技术生成合成样本,以增强原始类不平衡数据。接下来,应用双层自然邻居技术用于错误检测,识别噪声和边界样本。最后,该方法不是直接删除识别出的噪声和边界样本,而是利用基于粒子群优化(PSO)的差分进化(DE)算法的混合变体(DEPSO)对样本位置(属性)进行迭代优化和修改。通过解决噪声问题,SMOTE-TLNN-DEPSO技术在性能上优于其他基于SMOTE的过滤方法。该方法的优势包括无参数的最近邻错误检测技术,以及通过DEPSO方法对识别出的噪声样本进行优化,而不是简单删除,从而有助于保持数据的不平衡率并改善边界情况。
2)针对类内不平衡问题
Cieslak等人[62]提出了一种基于K-means聚类与SMOTE的过采样算法(Cluster-SMOTE),该方法首先利用K-means对原始少数类进行集群分割,然后在每个子集中应用SMOTE过采样。然而,这种方法的有效性严重依赖于聚类个数的选择。Bunkhumpornpat等人[63]提出了一种基于密度聚类的SMOTE过采样技术(DBSMOTE)。该方法首先执行DBSCAN以发现任意形状的簇,然后在每个簇内执行SMOTE过采样,尤其是在伪质心附近。虽然DBSMOTE避免了合成实例出现在多数类中,但这些实例在质心附近密集,且在远离质心的区域稀疏,从而忽略了接近决策边界样本的重要性。Ma等人[64]提出了一种基于CURE聚类与SMOTE的过采样算法(CURE-SMOTE),该算法首先使用CURE聚类方法对少数类进行聚类,并从原始样本中去除噪声和异常值,然后在代表点和中心点之间进行SMOTE操作。尽管CURE-SMOTE在一定程度上避免了合成实例出现在多数类中,但它仍然在中心点附近密集且远离中心点稀疏,从而忽略了接近决策边界样本的重要性。Douzas等人[65]提出了一种基于K-means与SMOTE的过采样算法,该方法首先通过K-means对所有不平衡数据集进行聚类并滤除噪声,然后选择相对安全的数据样本,利用SMOTE算法合成新数据。虽然K-means SMOTE在一定程度上优于SMOTE和DBSMOTE,但该算法仍未能有效克服噪声问题且容易产生过度拟合现象。Wang等人[66]提出了一种基于层次聚类和改进SMOTE的过采样算法,但该算法加重了类内不平衡且容易产生过度拟合现象。Xu等人[67]提出了一种基于K-means与SMOTE的新颖过采样算法(KNSMOTE),该方法首先对原始样本进行K-means聚类分割,然后选择没有被错分的少数类“安全样本”进行SMOTE过采样。然而,KNSMOTE在缓解类内不平衡方面的能力十分有限,且易发生过度拟合现象。
尽管上述方法在一定程度上解决了类内不平衡问题,但它们仍未完全解决过度拟合现象,这主要因为这些算法没有考虑到边界样本的重要性,并且现实中的大多数不平衡数据集包含混叠区域。为此,Keskes等人[68]提出了一种基于内距离矩阵(IntraDM)和距离矩阵(InterDM)的新型过采样技术。该方法旨在减少过度拟合、减少异常值的生成,并最小化重叠区域。此外,我们课题组[27]提出了一种改进的自适应半监督加权过采样技术(IA-SUWO)。该方法综合考虑了类间平均最短欧氏距离和最小二乘支持数值谱,为难学习的边界少数类样本赋予权重。基于这些权重,使用基于k-NN的方法来合成新实例,有效解决了少数类信息量不足的问题。为了验证该算法的有效性,我们将其与10种采样算法和两种集成算法在19个公开的真实数据集上进行了比较。实验结果表明,IA-SUWO算法在大多数数据集上明显优于其他10种过采样方法和两种集成算法。其中,IA-SUWO算法在Banana数据集上的采样和分类效果如图10所示。从图中可以看出,IA-SUWO有效地合成了大量含有重要信息的少数类边界实例,并且新实例分布更加均匀。
图10 IA-SUWO在Banana数据集上的采样和分类效果
3)针对类重叠的问题
Barua等人[69]提出了一种多数类加权少数类过采样技术(MWMOTE)。MWMOTE首先识别边界样本,然后根据多数类到难以学习的少数类样本的欧氏距离为少数类样本赋予权重,最后在少数类的子集群中依据权重合成新样本。虽然MWMOTE相较于基于k-NN的过采样算法如BSMOTE和ADASYN具有一定优势,但它可能忽略远离多数类的小尺寸少数类子集群[70]。为了解决这一问题,Nekooeimehr等人[70]提出了一种自适应半监督加权过采样技术(A-SUWO)。该算法在边界样本识别之前,通过半监督层次聚类算法对少数类实例进行聚类分析,并利用分类复杂度和交叉验证自适应地确定每个子群需要合成的新实例数量。尽管A-SUWO在某些方面优于MWMOTE,但其聚类过程较为复杂,且采样效果不显著。为此,我们课题组[28]提出了一种基于凝聚层次聚类的MWMOTE算法(Cluster-MWMOTE)。作为MWMOTE算法的扩展,Cluster-MWMOTE首先利用凝聚层次聚类算法(AHC)对少数类进行无监督聚类。由于该聚类过程相对简单,Cluster-MWMOTE不仅可以避免忽略远离多数类的少数类小尺寸子集群,而且不会显著增加算法复杂性,效果较为理想。Cluster-MWMOTE算法与MWMOTE算法的采样效果对比如图11所示。
4)针对多类不平衡问题
目前,解决数据不平衡问题的研究主要集中在二类不平衡问题上,但实际应用中,多类不平衡问题更具挑战。因此,在基于马氏距离的过采样(MDO)基础上,Yang等人提出了一种自适应马氏距离过采样(AMDO)方法,旨在解决多类不平衡问题。该方法通过捕获少数类的协方差结构,并沿着概率轮廓生成合成样本。Krawczyk等人[71]提出了一种基于径向的多类过采样(MC-RBO)方法。与仅使用少数类特征的现有多类别过采样方法不同,MC-RBO使用潜在函数生成人工实例。生成过程通过探索相互类分布的值非常小的区域来指导,能够应对困难数据分布并减轻现有方法的缺陷。我们团队[72]提出了一种基于SCOTE的多类LS-SVM状态监测框架。SCOTE利用“One-vs-All”策略将多类不均衡问题转换为多个二类不均衡问题。在每个二类子问题中,首先使用k-NN法过滤噪声;然后,利用最小二乘支持向量机(LS-SVM)的样本错分误差对少数类样本进行重要性排序,并基于k*INN思想合成新样本;最后,当所有二类不均衡问题解决后,多类不均衡问题也会得到解决。为了验证该框架的有效性,将其应用于CWRU、IMS轴承故障以及PHM2010、TTWD刀具磨损状态监测,并与其他16种监测框架进行比较。结果如图12所示,实验表明:SCOTE多类LS-SVM框架在数据有限且多类不均衡场景下的轴承和刀具状态监测中表现优于其他16种流行算法,且具有较强的鲁棒性,更适用于工程实际。为了解决过采样方法生成实例时忽略不同少数类实例之间内在特征,从而使合成实例变得冗余或无效的问题,Han等人[73]提出了一种基于全局-局部的过采样方法(GLOS)。该方法引入了一种新的离散性度量(DID),通过将少数类与每个类级别的离散值进行比较来区分少数类和多数类。然后,选择一些难以学习的实例,这些实例的实例级离散度小于相应类级实例的离散度,并根据离散度差异生成合成实例。这些选定的实例根据其本地分布被分配到不同的组中,并对每个组实例采用特定的合成策略。最终,所有少数类、部分多数类实例和合成数据将被用作训练数据,从而保证了合成实例的数量和质量。
CWRU故障监测中多种不平衡分类算法的鲁棒性比较
IMS I&II故障监测中多类不平衡分类算法的鲁棒性比较
虽然上述算法在处理数据不平衡问题上取得了一定成效,但它们主要基于特征向量建模,这可能在非特征向量建模问题(如时间序列数据分类)中效果不佳,或者不能直接应用于其他问题(如图像数据分类)。为了解决非特征向量建模下的不平衡分类问题,近年来研究者们对这些算法进行了扩展。Cao等人[74]提出了一种用于时间序列不平衡分类问题的综合过采样(INOS)技术,该方法主要使用增强结构保留过采样技术(ESPO)来估计少数类实例的协方差,以指导大部分少数类实例的生成。然后,利用ADASYN思想来指导其余少数类实例的合成。INOS旨在获得尽可能真实的均衡数据集。然而,ESPO的协方差思想在很大程度上依赖于原始少数类的样本分布情况,而基于ADASYN的思想可能无法有效处理重要的边界实例,这使得INOS容易受到噪声的影响,从而限制了其实用性。类似地,为了解决更复杂的不平衡序列分类问题(如高度不平衡、高噪声以及多元顺序数据等),Gong等人[75]提出了基于模型的过采样(MBOS)技术。MBOS使用递归神经网络学习序列的生成机制,以表示相应序列,并利用这些生成模型形成内核以捕获不同序列之间的相似性。最终,在内核特征空间中执行SMOTE以合成实例。尽管MBOS在内核学习中考虑了曼哈顿距离度量以确保不同类别的序列保持间距,但其假设序列是线性可分的,并不是所有序列在内核空间中都是可分的,因此该算法在内核空间中执行SMOTE时可能会受到噪声的影响,这也是其鲁棒性未明显优于其他采样技术的原因。Zhu等人[76]提出了一种结构保持的过采样方法(OHIT),用于解决高维不平衡时间序列分类问题。该方法利用基于密度比的共享最近邻聚类算法来捕获高维空间中少数类的模式,并对每种模式应用大维协方差矩阵的收缩技术,以获得准确可靠的协方差结构。最终,基于具有估计协方差矩阵的多元高斯分布生成结构保持合成样本。
为了应对非特征向量建模下的关键零部件状态监测与预测,我们课题组[72]提出了一种新框架:基于改进样本特性的过采样技术(ISCOTE)和深度迁移学习技术(VGG16)的端到端多类不均监测框架。由于卷积神经网络(CNN)在提取图像特征方面具有独特优势[77][78],该框架首先利用VGG16对轴承和刀具的时域振动信号图像进行特征提取,即将图片样本向量化处理。然后,在特征空间内利用ISCOTE进行重采样(不同于SCOTE,ISCOTE可以调节每种少数类样本中需要合成的样本数)。最后,将采样后的特征向量输入多类LS-SVM分类器进行状态监测。该框架的状态监测流程如图13所示。
图13 基于迁移学习和协同特征空间重采样策略的工业不平衡异常检测过程
为了验证该框架在轴承和刀具状态监测及预测上的有效性和优越性,我们将其与8种流行的算法监测框架应用于IMS、CWRU轴承故障以及PHM2010、TTWD刀具磨损状态监测中。结果如图14所示。实验表明,ISCOTE算法在所有数据集上都取得了最佳结果,这表明该算法能够在特征空间内有效处理经过VGG16迁移学习提取的轴承特征向量,并合成数量合理且分布合理的新特征样本。对于CWRU和IMS数据集,未采样(No-sampling)表现最差,远低于采样的精度。这表明多类不均衡对基于VGG16迁移学习的轴承故障监测带来了极大挑战。
其他算法效果不佳的原因包括:
a) 部分算法过于复杂,导致效果不佳,例如,A-SUWO的复杂聚类过程使其在所有数据集中均失效;
b) ROS、SMOTE、ADASYN、MWMOTE等算法由于固有缺陷,不适合高维不均衡轴承数据的重采样。
对于PHM2010和TTWD刀具数据集,未采样的表现并没有像前两个数据集那样最差,反而在PHM2010中表现优于大多数其他算法。这是因为刀具振动数据的信噪比低,且向量化后的特征向量维度很高,导致数据极其稀疏,给传统采样算法带来了挑战。ROS在大多数数据集中表现最差(过拟合现象),证明了这一点。类似地,其余算法效果不佳的原因包括:
a) 部分算法过于复杂;
b) SMOTE、ADASYN、MWMOTE等算法不适用于高维、稀疏的不均衡刀具数据。
图14 9种流行重采样算法在轴承、刀具中的监测结果
欠采样和过采样技术都有一定的缺点和优势,为了取得更好的采样效果,许多的研究人员将过采样和欠采样技术相结合,即混合重采样[79]。
Mahadevan等人[92]提出了一种混合采样技术,将SMOTE与随机欠采样方法结合。在数据预处理阶段,该方法对多数类和少数类分别进行欠采样和过采样,并将合成样本组合在一起。然后,将平衡后的样本实例进一步划分为N个子集,供基分类器进行训练,以提高分类器的时间效率。然而,许多研究人员认为,将SMOTE与欠采样方法相结合的方式无法完全避免SMOTE过拟合的缺点。因此,Hartono等人[93]提出了混合方法重新定义-多类不平衡(HAR-MI)方法,该方法根据类的重叠情况对多类进行平衡处理,并使用基于少数类过采样(M-SMOTE)与编辑最近邻(ENN)分别对少数类和多数类进行采样。Gao等人[94]提出了用于重叠区域的混合采样方法(OverlapRHS),该方法利用支持向量数据描述技术在多数类和少数类样本上分别构建重叠检测模型。通过将合成的少数类样本与邻域清洗相结合,对重叠数据区域内的样本进行混合采样。实验结果表明,该方法能够有效检测不平衡数据集中的重叠数据,改善了分类器训练效果。为了应对小样本异同问题、边界和稀有样本问题、以及类之间的重叠,Mostafaei等人[95]提出了欠采样加权平均边界SMOTE(USWAVG-BS)。该方法包含三个阶段:在第一阶段,特征空间被转化为异构值距离度量(HVDM)空间,并使用一个基于不平衡率的新公式来识别来自多数类的噪声示例。在第二阶段,来自多数类的噪声示例要么被转换为少数类,要么被移除,直到达到两个类之间的特定阈值。在最后一个阶段,使用类似于Safe-level-SMOTE和LN-SMOTE的方法生成新示例,通过强调少数类区域来进一步提升少数类的表现。
混合采样技术通过增加少数类样本和减少多数类样本的数量来实现数据集的平衡。与单纯的欠采样方法相比,混合采样技术能够保留更多有价值的少数类样本信息,减少信息丢失。同时,相对于过采样方法,混合采样能够降低过拟合风险,减少重复样本和噪声样本的影响。然而,混合采样方法也存在一些局限性,如:
总体而言,尽管重采样技术在不平衡分类问题上具有广泛适用性和灵活性,目前的研究仍面临一些挑战,特别是在处理复杂的不平衡分类问题时。现阶段的研究主要集中在基本的不平衡分类情况,如二类别不平衡问题。然而,在实际应用中,我们常常面临更复杂的场景。一方面,高噪声问题是不平衡分类中的一个重要挑战。在现实世界的数据集中,存在大量噪声样本,这些样本可能对重采样方法产生负面影响,导致虚假的合成样本或错误地剔除有价值的样本。因此,如何在重采样过程中准确处理噪声样本仍是亟待解决的问题。另一方面,小样本下的高度不平衡问题也具有挑战性。在某些领域,如医学诊断或金融欺诈检测,可用的少数类样本非常有限,而多数类样本数量庞大。
在这种情况下,如何有效利用有限的少数类样本,并保持数据的代表性和多样性,仍然是一个研究难点。同时,类内类间不平衡问题也是一个复杂的挑战。在某些情况下,不同类别之间的不平衡性可能同时存在于类内和类间,使数据分布更加复杂。针对这种情况,如何采用合适的混合采样策略来平衡类别间的不平衡性,同时保持类内的多样性和信息完整性,仍需深入研究。此外,高维不平衡问题、多类不平衡问题以及涉及时间序列分类、图像不平衡分类等非特征向量不平衡分类问题,现有的重采样方法在处理上也存在一定的局限性。这些问题需要结合领域特定的知识和技术,发展针对性的重采样策略和算法,以更好地应对复杂的不平衡分类情况。
4.2 过采样技术生成对抗网络
随着深度学习模型展现出强大的生成能力,这些模型也逐渐被引入到解决数据不平衡分类的问题中,其中生成对抗网络(GANs)[96] 是最常用的一种生成模型。GANs能根据原始数据分布生成与原始数据集相似的新样本,因此,GANs 可以被视为一种特殊的过采样技术。如图15所示,GAN 由一个生成器(G)和一个判别器(D)组成[97]。
图15 GAN的生成过程
在模型训练过程中,生成器 G 的目标是生成更加逼真的假样本,而判别器 D 的目标则是不断提高对真假样本的判别能力。通过两者的博弈,最终达到纳什均衡,此时生成的伪样本具有真实样本的特征,可以用于辅助训练。具有代表性的研究包括:Zhang 等人[98] 提出了一种基于深度学习的故障诊断方法,使用 GANs 来学习噪声分布与真实机械振动数据之间的映射,通过该方法生成额外的真实假样本以平衡并扩展可用的数据集。Guo 等人[99] 应用了一个一维辅助分类器GAN 来生成故障数据,然后利用合成数据和真实数据训练分类器,以进行不平衡数据的诊断。为了解决在不平衡数据集上基于深度学习的故障诊断性能恶化的问题,Wang 等人[100] 提出了一种新颖的双注意力生成对抗网络(DAGAN)。该方法首先构建注意力模型以选择性地增强每个位置的特征,并自适应地融合相互依赖的通道图。然后,将注意力模型嵌入到 GAN 中,以改进特征表示。DAGAN 可以有效地学习故障相关特征并生成足够的故障样本,从而在重新平衡的数据集上训练诊断模型,提高分类性能。
虽然许多方法使用 GAN 解决不平衡问题,但大多数方法并未有效利用分类器与生成器之间的关系。因此,Choi 等人[101] 提出了一种新颖的三方结构,包括鉴别器、生成器和分类器,并结合决策边界正则化。该方法通过生成器和分类器的协作训练,生成少数类样本,逐渐扩大少数类决策区域,从而提高不平衡数据分类的性能。针对传统 GAN 在高度类不平衡数据集中生成少数类样本的问题,Dai 等人[102] 使用平衡 GAN 和梯度惩罚(BAGAN-GP)来生成不同的少数类样本。为了更好地解决极度不平衡条件下的数据增强问题,Li 等人[103] 提出了极度不平衡数据增强生成对抗网络(EID-GAN)。该模型利用新的惩罚函数,通过从生成实例的裁剪区域中减去异常值来引导生成器学习异常值的特征,并将惩罚函数的输出值与生成器损失结合,联合更新生成器的参数。此外,该模型还使用新的评估方法(如两个离群值检测器和 k-fold 交叉验证)来评估生成实例的可用性。
由于不平衡数据中常常伴有噪声和类重叠问题,但大多数基于 GAN 的样本生成方法未涉及这些问题。Li 等人[104]提出了辅助生成相互对抗网络(AGMAN)。首先,生成器结合自动编码器(AE)构建解码器重构特征损失,以协助精确映射噪声分布与真实数据分布,生成高质量的假样本来补充不平衡数据集,提高小样本类不平衡故障诊断的准确性。其次,鉴别器引入了具有非共享双鉴别器的结构,通过设置双鉴别器的对立评分标准,实现双鉴别器之间的相互对抗,从而提高生成样本的质量和多样性,避免模式崩溃。最后,交替更新辅助生成器和双鉴别器,以生成同时欺骗两个鉴别器的假样本,并通过对偶判别器实现纳什均衡。
为了解决 GAN 在拟合样本分布时的问题,Ding 等人[105]提出了基于轮盘赌选择方法的训练样本选择策略,使 GAN 更加关注类重叠区域。该方法设计了两种生成器训练损失,并提出了一种噪声样本过滤方法来提高生成样本的质量。然后,使用改进的 RGAN 对少数类样本进行过采样,以获得平衡的训练样本集,并结合集成学习策略进行训练和预测。此外,Zhang 等人[106] 提出了使用 GAN 框架的新型过采样方法,即G-GAN。在该方法中,估计少数样本的高斯分布以获得 GAN 潜在空间的少数类先验知识。通过采用混合策略获取噪声,生成器的一些噪声服从高斯分布,另一些服从随机分布。利用 Bagging 思想训练 G-GAN 生成分散的正样本,以避免过拟合。针对当前基于 GAN 的方法无法同时从时频域更新生成器的问题,Wang 等人[107] 提出了类傅里叶变换 GAN(FTGAN)。该方法通过引入基于自动编码器(AE)的类傅里叶变换(FLT)来提高合成数据质量。
尽管GAN 在缓解数据不平衡问题上具有潜力,但仍面临一些问题,如梯度消失(当真实样本和生成样本之间的重叠极小或没有重叠时,Jensen-Shannon 散度成为常数,导致优化目标不连续)[108] 和模式崩溃(生成数据缺乏多样性)等。为解决这些问题,Arjovsky 等人[109] 提出了 Wasserstein GAN(W-GAN)。W-GAN用 Earth-Mover 距离代替 Jensen-Shannon 散度来度量真实样本和生成样本分布之间的距离,并用一个批评函数 f 替代 GAN 的判别器,批评函数f 需要建立在 Lipschitz 连续性假设上。尽管 W-GAN 彻底解决了训练不稳定和模式崩溃的问题,但也容易造成过拟合。为此,Liu 等人[110] 提出了结合深度遗憾分析的变分自编码生成对抗网络方法。该方法将变分自编码器与 GAN 相结合,学习真实数据的深层特征,并对结合 deep regret analysis 方法的判别器施加梯度惩罚,以避免模式崩溃,同时在生成器中采用特征匹配模块来防止过拟合。Ren 等人[111] 提出了 Few-shot GAN,该方法首先使用样本丰富的类进行预训练,然后开发基于锚样本的微调策略,使生成的样本既接近真实样本,又尽可能保留学习到的复杂样本分布。Liu 等人[112] 提出了深度特征增强生成对抗网络,用于合成故障类别,以解决轴承诊断能力的不平衡问题。该方法通过拉离函数、自注意机制和自动数据滤波分别克服了原振动样本的模式崩溃问题、深度特征强化学习问题和新样本的准确性及多样性问题。针对时间序列不平衡问题,Lee 等人[32] 提出了基于模型的过采样方法——以边界为中心的生成对抗网络(BFGAN)。该方法通过专门设计的附加标签来反映样本在数据空间中的位置重要性,并通过使用修改后的 GAN 结构生成人工样本。
尽管生成对抗网络(GANs)在解决数据不平衡问题上取得了一定成果,但仍存在一些缺点和挑战。除了未能彻底解决梯度消失和模式崩溃问题外,基于 GAN 的不平衡分类方法还需考虑以下问题[113]:
4.3 特征提取
当数据维度较高时,类不平衡问题会加剧。重采样方法往往难以有效解决高维类不平衡问题[114]。相较而言,特征选择方法通过削弱数据集中不平衡的影响因素,甚至可以作为解决高维数据中类不平衡问题的单独方案[115]。特征选择的核心在于通过特定规则从特征集 合中挑选出区分多数类和少数类的关键特征,从而增强类别间的区分度,提高分类准确性。
按照所选取的方式是否与分类器相关,特征选择可分为3种模型,如:过滤法(Filter)、嵌入法(Embedded)和包装法(Wrapper)[116]。
具有代表性的研究如:Hou等人[120]通过一系列对比实验验证了Relief(基于最近邻规则的特征选择度量)、FAST(滑动阈值的特征评估)等过滤式特征选择方法的有效性。Yin等人[121]提出了一种基于类分解的新特征选择方法,其首先将多数类划分为相对较小的伪子类,并生成相应伪类标签;然后,对新分解的数据执行特征选择,以计算特征基于Hellinger距离的最优度量,该过程能在一定程度上克服样本分布不均衡对分类器的影响。Maldonado等人[122]采用嵌入式的特征选择方法选出有利于识别目标类别的属性去解决高维数据不平衡的问题。Zhou等人[123]提出了一种基于K近邻依赖性的在线特征选择(K-OFSD),在邻域粗糙集理论方面,K-OFSD 使用最近邻的信息来选择相关特征以获得多数类样本和少数类样本之间更高的可分离性。为了更好地解决高维不均衡问题,Maldonado等人[124]提出了一种通过缩放因子来惩罚特征集基数,并与代价支持向量机(Cost SVM)、支持向量数据描述相结合的特征选择方法。针对具有缺失值得高维不平衡数据,Zhang等人[125]提出了一种新的进化特征选择方法,该方法首先定义了基于填充风险的改进 RF-度量(RF-measure)来评估类不平衡情况下缺失数据对特征选择的影响,并以 RF-measure 为目标函数,提出了一种基于粒子群优化的模糊聚类特征选择方法。由于现有的基于邻域粗糙集的特征选择方法容易忽视数据分布的多样性和复杂性,难以从不平衡和高维数据集中获得这种全局最优特征子集。因此,Sun等人[126]提出了一种新的两阶段特征子集选择方案。首先,为了评估不同特征的分布,引入标准偏差系数来构造模糊多邻域半径集。然后,提出了模糊多邻域粒和模糊隶属度来建立新的 FMRS,并发展了代数角度的特征显着性度量,以平衡负类和正类中不同特征的近似性质和影响。其次,定义模糊多邻域条件熵,从信息的角度最大化类不平衡数据的信息量,然后通过融合上述两个评估视角,提供这种混合度量来充分评估类不平衡数据集的这种不确定性。这些内部和外部重要指标旨在获得此第一阶段基于过滤器 FMRS 模型的预选候选特征集。第三,可以开发一个控制因子来控制鲸鱼位置更新,当将依赖度和熵度量与缩减率相融合时,将构建一个新的适应度函数来评估这个最优特征子集。
上述方法通过选择具有显著差异的特征来提升样本分类的准确性,但这种方法也容易导致部分重要信息的丢失,从而影响后续的分类建模。此外,目前的特征层面不平衡分类方法主要集中在特征选择上,而从特征提取角度根本性地解决不平衡分类问题的研究仍较为有限[127]。幸运的是,深度学习模型在特征提取方面展示了巨大的潜力,为在特征层面解决不均衡数据分类问题提供了新的思路[77]。例如:Ng等人[128]提出了一种基于双自动编码器网络的特征学习方法,旨在解决不均衡分类问题。Kumar等人[129]结合了基于深度残差网络(ResNet152)的深度特征学习算法和SMOTE算法,共同解决不均衡图片分类问题。Luo等人[130]提出了一种新颖的发散鼓励自动编码器,能够同时对多数类和少数类进行特征学习。为了减少维数灾难和过拟合,Subbiah等人[131]提出了一种基于深度学习的长短期记忆网络(LSTM)结合混合特征选择的方法(RMR-HFS-LSTM)。该方法将过滤器与包装器结合,用于识别最佳特征子集。通过基于实例的RReliefF和基于信息论的互信息滤波器特征选择,去除不相关特征以减少维数灾难,最后使用递归特征消除(RFE)包装器特征选择来调整过滤器选择的特征,从而减少过度拟合。Abdoli等人[132]提出了Bagging监督自编码器分类模型(BSAC),将监督自编码器与特征学习结合,用于分类样本,并利用Bagging机制处理特征空间中的不规则性。
在当前的研究中,特征选择方法在应对高维类不平衡问题方面展示了明显的优势。通过选择具有显著差异的特征,特征选择能够增加多数类和少数类之间的区分度,从而提高分类的准确性。然而,这些方法也存在一些局限性。首先,特征选择可能导致重要信息的丢失,从而影响后续分类模型的性能。其次,目前的特征层面不平衡分类方法主要侧重于特征选择,而从特征提取角度解决不平衡分类问题的研究相对较少。
特征提取通过深度学习模型挖掘数据集中的潜在特征,显示出很大的潜力。然而,在处理不平衡分类问题时,特征提取仍面临一些挑战:
尽管特征提取在处理不平衡问题上具有显著潜力,但仍需进一步研究和探索如何有效应用深度学习模型进行特征提取,以应对复杂的不平衡分类问题。需要克服数据不足、计算复杂度高和过度拟合等挑战,以提升特征提取方法在不平衡分类中的效果和实用性。
4.4 分类器改进
标准分类器通常以最小化误分率为目标,并假设各个类别的误分代价相等。然而,在实际应用中,各类别的误分代价往往不同。因此,许多研究人员建议在训练分类器时,应重点关注误分代价较高的样本,提出了基于代价敏感理论的分类方法[136]。在类别不平衡问题中,少数类样本通常更为关键,因此,通过提高少数类的误分代价,可以提升分类模型的整体性能。
当前的代价敏感学习方法主要包括代价敏感直接学习[137]和代价敏感元学习[138]。代价敏感直接学习通过对标准分类器进行改造,使其目标从最小化错分率转变为最小化错分代价,从而实现代价敏感分类。代价敏感元学习则通过将样本的错分代价以样本权重的形式体现,并基于这些权重对样本集进行重构[127]。一些典型研究包括:Dhar等人[139]和Gu等人[140]将代价敏感思想引入支持向量机中,为不同类别样本赋予不同的错分代价因子,以最小化整体错分代价。Zhang等人[141]提出了一种基于“OVO”策略的代价成本敏感反向传播神经网络,以减少整体错分代价。Sahin等人[142]和马等人[143]将代价敏感思想应用于决策树,在计算分裂属性和剪枝等阶段,提升少数类样本的重要性。Wei等人[144]将不同惩罚因子(DEC)策略引入到不均衡分类的模糊支持向量机(IF-SVM)中,以确保少数类样本的重要性,这也体现了代价敏感的思想。最近,代价敏感学习思想被引入深度学习领域。Khan等人[145]提出了一种基于代价成本敏感的深度神经网络,自动学习多数类和少数类样本的稳健特征表示,从而增强特征的鲁棒性和判别性。Wu等人[146]提出了一种深度对抗转移学习模型,使用代价敏感的深度分类器来解决类不平衡问题。Ren等人[146]则提出了一种自适应计算样本成本的策略,解决了敏感学习中设置最优成本的困难。Zhang等人[147]提出了一种新型的代价敏感深度学习框架,专门用于解决时间序列分类中的不平衡问题。
尽管代价敏感学习在解决不平衡分类问题上具有显著优势,但也存在一些局限性。首先,这些方法可能对数据集的分布和不平衡程度非常敏感。在极端不平衡的情况下,少数类样本数量极少,模型可能仍然难以充分学习到少数类的特征和模式,导致分类性能下降。其次,代价敏感学习方法通常需要额外的参数调整和模型训练,这增加了模型开发和调优的复杂性。此外,代价敏感学习要求准确定义和估计不同类别之间的代价或误分类成本,这可能需要领域专家的知识和经验,并需仔细权衡各种成本因素。如果代价估计不准确,可能导致模型决策产生误差。对于许多复杂任务,人类难以准确分配或识别不同类型的误分类代价[148],且人工设计的代价可能引入偏见。为了解决这些问题,研究者们开始将进化计算应用于代价敏感学习中[149],如利用遗传算法(GA)[150]、遗传规划算法(GP)[151]、粒子群优化算法(PSO)[152]、回溯搜索优化算法(BSA)[153]、差分进化算法(DE)[154]等对代价矩阵进行优化[155]–[158]。虽然这些算法在代价矩阵优化方面显示出一定的有效性,但仍面临一些问题和挑战。
在实际工业场景中,故障样本的收集往往非常困难,因此研究人员提出了利用单一类别样本来训练分类模型的方法[159]。单类学习法的核心思想是只对多数类样本进行学习,而忽略少数类样本,将多数类样本视为目标类别,其他样本视为离群点。由于该方法专注于多数类而忽略其他类别的信息,Bellinger等人[160]和Hempstalk等人[160]建议应谨慎使用单类学习法。然而,Krawczyk等人[161]认为,单类学习能够识别目标类与其他类别的独特特征,因此适用于处理类不平衡、类噪声和类重叠等复杂数据分类问题。Yin等人[162]通过自适应调整样本权重来解决单类支持向量机对噪声样本的敏感性。Luca等人[163]使用单类支持向量机来解决异常检测中的正常数据与故障数据的极端不平衡问题。Perez-Sanchez等人[164]指出,单类学习不需要考虑类别的不平衡性,因此可以训练出无偏的模型,从而对不平衡问题具有较好的鲁棒性。
尽管单类学习可以有效减少训练成本,并对少数类样本不敏感,但该方法也存在一些局限性。首先,单类学习容易导致过度拟合,从而削弱模型的泛化能力。其次,现有的单类学习方法对阈值和核函数的选择高度依赖,这显著影响了其性能[127]。
与传统方法中只训练单个学习器不同,集成学习通过将多个弱分类器组合起来进行决策,从而提高整体准确度。然而,集成方法在处理类别不平衡问题时存在挑战[165],因此通常需要与其他平衡策略结合使用,以更有效地解决不平衡分类问题。目前,典型的解决方案包括:结合重采样技术的集成学习算法和基于代价敏感学习的集成学习算法。
在将重采样方法与集成学习相结合时,可以进一步分为基于Bagging、基于Boosting以及混合集成的不平衡处理方法。其中,基于Boosting的方法通过调整训练数据的分布,重点关注少数类样本[127]。基于Bagging的方法则旨在获得有效的分类器,并保持基分类器的多样性[127]。例如,Chawla等人[166]将SMOTE与Boosting技术结合(SMOTEBoost),Seiffert等人[167]将随机过采样算法(RUS)与Boosting技术结合(RUSBoost),Wang等人[168]将SMOTE与Bagging算法结合(SMOTEBagging),Lu等人[169]结合了混合采样技术与Bagging算法,以提升不均衡分类效果。Sun等人[170]将SMOTE与具有差分采样率(DSR)的Bagging集成学习算法结合来处理不均衡数据,而陈等人[171]则将SMOTE、Bagging和Boosting技术结合(Rotation SMOTE)来间接增加少数类样本的采样权重,从而提升少数类样本的识别率。
与单纯使用代价敏感学习算法不同,代价敏感集成学习方法通过集成学习算法来实现总体错分代价的最小化,而不是依赖单一分类器来体现不同类的错分代价,这避免了基分类器参数不断调节的过程。目前,代价敏感集成学习的常见方法包括利用不同策略更新Adaboost的类别权重。代表性的研究包括:AdaCost、AdaC1、AdaC2和AdaC3算法[172],这些算法在权重更新中引入了不同的代价。Masnadi-Shirazi等人[173]提出了一种新颖的基于代价敏感的Boosting算法框架,该框架通过在弱学习器的凸组合功能空间中推导出成本敏感损失,并利用梯度下降最小化这些损失,从而产生适合不均衡分类的提升算法。Krawczyk等人[174]通过集成多个代价敏感分类器有效提升了少数类样本的识别率。付等人[175]提出了一种适用于多标签问题的代价敏感集成学习算法,该算法通过自动学习多个弱分类器组合成强分类器来降低平均错分代价。Wong等人[176]结合代价敏感深度神经网络(CSDNN)与代价敏感深度神经网络集成(CSDE),利用随机欠采样和逐层特征提取来提升CSDNN的泛化性能。肖等人[177]将元代价敏感学习、半监督学习和Bagging等技术结合,提出了一种基于元代价敏感模型的半监督集成方法(SSEM),以解决高度不平衡条件下模型性能低下和大量无标签数据浪费的问题。尽管集成学习在处理不均衡数据时具有一定的优势,但也存在一些局限性:a) 不适用于高维不均衡数据,b) 基分类器类型和数量难以精确选择,以及c) 训练过程复杂且时间成本高[127]。
综上,分类器改进在解决不平衡分类问题上具有一定优势。代价敏感法通过调整不同类别之间的代价权重,能够更好地处理不平衡数据集。它考虑了类别不平衡对分类性能的影响,赋予少数类别更高的代价,使模型更关注于正确分类少数类样本。这样可以提高整体分类性能。代价敏感法还具有灵活性和可调节性,可以根据实际需求对不同类别的代价进行调节,以平衡不同类别之间的分类关注度。单类学习法主要关注于少数类别的分类,忽略多数类别。这种方法可以更加专注地学习少数类别的特征和模式,提高对少数类别的识别能力。同时,单类学习法通过忽略多数类别,减少了多数类样本对模型训练的干扰,进一步提高了对少数类别的分类效果。集成学习法通过结合多个分类器的预测结果,能够获得更稳健和准确的分类结果。
在处理不平衡数据时,集成学习方法可以通过对多个分类器的加权投票或结合基分类器的输出概率来提高对少数类别的分类准确度。此外,集成学习方法还可以通过均衡样本分布、引入重采样技术或基于集成权重的策略,缓解不平衡数据带来的问题,提高少数类别的识别能力。然而,这些方法也存在一些缺陷需要深入探究。代价敏感法的关键在于合理设置代价权重,但如何确定权重的选择并没有明确的标准,需要经验和试验来进行调优。单类学习法主要适用于那些仅有少数类别的问题,而对于多类别问题,单类学习法可能无法有效处理。集成学习方法的性能高度依赖于基分类器的质量和多样性,如果基分类器之间存在较高的相关性,集成学习的效果可能会受到限制。因此,在应用这些算法时需要综合考虑它们的优势和局限性,并根据具体情况选择适合的方法来解决不平衡分类问题。近年来,随着机器学习和数据科学的发展,涌现了许多解决不平衡数据问题的方法。其中包括重采样、特征选择和分类器改进等技术。如表2所示,这些方法在处理不平衡数据时,各自具有独特的优势和缺点。然而,在现实世界的工业场景中,我们很少会孤立地使用某一种方法来应对不平衡数据的挑战[178]。相反,通过综合运用多种方法,我们能够更加高效地应对这一问题。例如,可以先使用重采样技术平衡数据集,然后再应用特征选择方法来选择最具区分能力的特征子集,并结合分类器改进方法来提高分类器的性能。
表 2 不均衡分类方法的优缺点
编辑:李正平
校核:陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除