首页/文章/ 详情

综述 | 设备状态监测中处理工业数据分布不平衡的重采样技术(中)

18小时前浏览26

    本期给大家推荐魏建安教授的设备状态监测中处理工业数据分布不平衡的重采样技术综述(中)。在工业生产中,机器设备大部分时间处于正常运行状态,故障发生的时间极为短暂,导致故障数据稀缺,数据集普遍存在不平衡问题。随着制造业的快速发展,复杂设备的故障数据往往伴随噪声和多重不平衡现象,给故障诊断带来巨大挑战。本文将从数据预处理、特征提取和分类器改进三个方面,系统分析当前不平衡数据分类的主要方法,并探讨这些方法在工业场景中的应用及未来研究方向。

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:

    Review of resampling techniques for the treatment of imbalanced industrial data classification in equipment condition monitoring

    论文期刊:Engineering Applications of Artificial Intelligence

    论文日期:2023年8月

    论文链接:

    https://doi.org/10.1016/j.engappai.2023.106911

    作者:Yage Yuan , Jianan Wei , Haisong Huang

    机构:

    Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China

    作者邮箱:

    gs.ygyuan22@gzu.edu.cn
    jawei@gau.edu.cn
    hshuang@gzu.edu.cn
    作者简介:

    魏建安,工学博士,贵州大学特聘教授,硕导,贵州省“产业技术创新副总”,研究方向为制造大数据与制造信息系统、航空航天领域关键零部件智能制造与运维、医工领域数据与图像处理等。主持国家级、省部级课题4项;发表相关领域论文近30篇,其中一作或通信发表SCI 1区Top论文8篇、2区论文1篇(综述),单篇最高被引150余次;科学出版社出版工业大数据与智能运维领域学术专著1部;授权国家发明专利3项;担任《航空动力学报》(EI)、《工业工程》、《数据采集与处理》、《中国测试》等领域知名期刊的青年编委;担任中国图学学会(CGS)可视化与认知计算专委会委员、中国图学学会(CGS)青年工作委员会委员、中国机械工程学会(CMES)工业大数据与智能系统分会专委会委员、中国图形图像学会(CSIG)遥感图像专委会委员、中国自动化学会(CAA)动态学习与智能医学专委会(筹)专委会委员、全国材料与器件科学家智库-电子信息材料与器件专家委员会常务委员等学术兼 职。

    黄海松,工学博士、教授,博士生导师,贵州大学现代制造技术教育部重点实验室常务副主任、贵州省百层次创新人才,贵州省省管专家,贵州省科技拔尖人才、重庆市“巴渝学者讲座教授”,中国机械工程学会工业大数据与智能系统分会专委会委员、中国计算机学会工业控制专委会委员、《计算机集成制造系统》理事会理事、中国图学学会数字孪生专委会委员,以第一完成人或者主要完成人获得省部级科技进步奖一、二、三等奖励5项。

    目录

    1 摘要
    2 引言
    复杂不平衡数据的特性分析

    3.1 小样本不平衡下的噪声

    3.2 小样本下的类内类间不平衡

    3.3 小样本下的多类不平衡

    3.4 时间序列下的小样本

    不平衡数据分类方法及其在工业不平衡数据处理中的应用

    4.1 重采样技术

        4.1.1 欠采样技术

        4.1.2 过采样技术

        4.1.3 混合采样技术

    4.2 生成对抗网络

    4.3 特征选取
    4.4 分类器改进
        4.4.1 代价敏感法
        4.4.2 单类学习法
        4.4.3 集成学习法
    (以上标记章节为本文内容)

    重采样技术在工业不平衡数据处理中的应用

    工业不平衡异常监测中的困难和挑战问题

    7 总结

    4 不平衡数据分类方法及其在工业不平衡数据处理中的应用

    4.1.2 过采样技术

    过采样技术通过增加少数类样本来提高分类性能。与欠采样技术相比,过采样不会删除大量含有重要信息的样本。随机过采样技术[55]是最简单的过采样方法,通过随机复 制少数类样本,使其数量与多数类样本相当。然而,这种随机复 制方式容易导致过度拟合[56],并且无法增加额外的有用信息。

    图8 SMOTE技术的采样过程  

    为了解决这一问题,Chawla等人[57]提出了一种合成少数类过采样技术(SMOTE),该方法通过插值在少数类样本的k近邻域中生成新个体。如图8所示,SMOTE首先从少数类中选取一个待采样实例(x);接着,在与其同类的k近邻样本集中随机选取一个实例(y);最后,通过下述公式使用线性插值的方式随机生成新实例(g)。
          (1)

    因此,SMOTE能够生成不同于原始数据的新实例,从而克服随机过采样方法的过拟合问题。然而,使用K-NN方法进行插值合成新样本时,可能会面临以下问题[21]:

    • 噪声影响可能被放大。如果噪声样本被选为插值对象,所生成的新样本也可能会包含噪声。
    • 加剧类重叠问题。当插值区域位于类重叠区域时,可能会进一步加重类重叠,从而导致分类器的分类精度下降并引发过度泛化。
    • 加剧类内不平衡。由于SMOTE方法随机选择实例进行合成,在少数类样本密集的区域生成的新样本数量可能会多于稀疏区域,从而加剧类内不平衡。
    • 过度拟合。在样本密集区域生成的新样本与原始样本距离较近,重复度高,难以为分类器提供新的学习信息。为了解决这些问题,研究人员提出了多种改进的过采样方法。

    1)针对噪声问题  

    Rivera[58]提出了一种噪声减少的先验合成过采样(NRAS)方法,该方法通过生成一个新特征来表示少数类成员的概率,并去除那些表现为噪声的少数类样本。Thanh Vo等人[59]提出了一种噪声自适应合成过采样技术,其核心在于根据数据噪声比的概念(即样本到其k个最近邻中同一类样本的距离之和)来确定为少数类样本生成的新样本数量。

    我们团队[26]提出了一种免疫噪声的多数类加权少数类过采样技术(NI-MWMOTE),其核心在于噪声自适应处理策略:
    • 首先,利用k-NN法识别出“疑似”噪声,具体区别如图9所示。从图中可以看出,离少数类中心距离越大且离多数类中心距离越小的疑似噪声,越有可能是真实噪声;
    • 此外,在少数类中的近邻域密度越小,而在多数类中的近邻域密度越大的疑似噪声,也越可能是真实噪声。
    • 然后,基于样本间的欧氏距离和近邻域密度的加权值,将“疑似”噪声的真实噪声概率进行排序,得到噪声概率集;
    • 最后,根据噪声概率集、错分误差以及迭代方式自适应地选择最佳噪声处理策略。

    疑似噪声的差异:(a) 欧几里得距离比较,(bk最近邻密度比较 [26]
    这种方法克服了k-NN噪声剔除法在处理噪声时可能发生的欠处理或过度处理现象,尤其在样本稀疏且数量不足的情况下。自适应噪声处理的流程如表1所示。对于算法 1的第5步:
    • 1) 为了减少随机影响,需要多次执行SMOTE,并使用统计均值作为G-mean的决策终值。
    • 2) 不需要优化分类器超参数,其原因是算法仅关注错分率,而不是准确性。
    • 3) 当出现多个G-mean最大值时,在第一次最大值时选择噪声处理方案,这将在最大程度上保留原始数据集的分布以及更多的少数类实例。

    表1 自适应噪声处理

    疑似噪声集决策集的计算方法如式2和式3所示。其中    为疑似噪声决策集,    是第    个疑似噪声的决策值,    是权重因子,用于调整距离和样本近邻域密度的相对重要性。

          (2)

            (3)

    Liu等人[60]提出了一种噪声鲁棒过采样方法,该方法首先采用聚类算法对多数类和少数类进行聚类,然后利用多数类信息安全地为捕获的样本生成新样本。同时,该方法有选择性地删除跨越类边界的样本。虽然这种方法可以缓解多类数据不平衡的问题,但它在处理包含大量边界样本的情况时表现不佳。为了解决噪声过滤方法对参数设置的高度依赖性以及过滤噪声后可能再次出现类不平衡的问题,Dixit等人[61]提出了一种新的基于过采样滤波器的方法,称为SMOTE-TLNN-DEPSO。该方法首先使用SMOTE技术生成合成样本,以增强原始类不平衡数据。接下来,应用双层自然邻居技术用于错误检测,识别噪声和边界样本。最后,该方法不是直接删除识别出的噪声和边界样本,而是利用基于粒子群优化(PSO)的差分进化(DE)算法的混合变体(DEPSO)对样本位置(属性)进行迭代优化和修改。通过解决噪声问题,SMOTE-TLNN-DEPSO技术在性能上优于其他基于SMOTE的过滤方法。该方法的优势包括无参数的最近邻错误检测技术,以及通过DEPSO方法对识别出的噪声样本进行优化,而不是简单删除,从而有助于保持数据的不平衡率并改善边界情况。

    2)针对类内不平衡问题  

    Cieslak等人[62]提出了一种基于K-means聚类与SMOTE的过采样算法(Cluster-SMOTE),该方法首先利用K-means对原始少数类进行集群分割,然后在每个子集中应用SMOTE过采样。然而,这种方法的有效性严重依赖于聚类个数的选择。Bunkhumpornpat等人[63]提出了一种基于密度聚类的SMOTE过采样技术(DBSMOTE)。该方法首先执行DBSCAN以发现任意形状的簇,然后在每个簇内执行SMOTE过采样,尤其是在伪质心附近。虽然DBSMOTE避免了合成实例出现在多数类中,但这些实例在质心附近密集,且在远离质心的区域稀疏,从而忽略了接近决策边界样本的重要性。Ma等人[64]提出了一种基于CURE聚类与SMOTE的过采样算法(CURE-SMOTE),该算法首先使用CURE聚类方法对少数类进行聚类,并从原始样本中去除噪声和异常值,然后在代表点和中心点之间进行SMOTE操作。尽管CURE-SMOTE在一定程度上避免了合成实例出现在多数类中,但它仍然在中心点附近密集且远离中心点稀疏,从而忽略了接近决策边界样本的重要性。Douzas等人[65]提出了一种基于K-means与SMOTE的过采样算法,该方法首先通过K-means对所有不平衡数据集进行聚类并滤除噪声,然后选择相对安全的数据样本,利用SMOTE算法合成新数据。虽然K-means SMOTE在一定程度上优于SMOTE和DBSMOTE,但该算法仍未能有效克服噪声问题且容易产生过度拟合现象。Wang等人[66]提出了一种基于层次聚类和改进SMOTE的过采样算法,但该算法加重了类内不平衡且容易产生过度拟合现象。Xu等人[67]提出了一种基于K-means与SMOTE的新颖过采样算法(KNSMOTE),该方法首先对原始样本进行K-means聚类分割,然后选择没有被错分的少数类“安全样本”进行SMOTE过采样。然而,KNSMOTE在缓解类内不平衡方面的能力十分有限,且易发生过度拟合现象。

    尽管上述方法在一定程度上解决了类内不平衡问题,但它们仍未完全解决过度拟合现象,这主要因为这些算法没有考虑到边界样本的重要性,并且现实中的大多数不平衡数据集包含混叠区域。为此,Keskes等人[68]提出了一种基于内距离矩阵(IntraDM)和距离矩阵(InterDM)的新型过采样技术。该方法旨在减少过度拟合、减少异常值的生成,并最小化重叠区域。此外,我们课题组[27]提出了一种改进的自适应半监督加权过采样技术(IA-SUWO)。该方法综合考虑了类间平均最短欧氏距离和最小二乘支持数值谱,为难学习的边界少数类样本赋予权重。基于这些权重,使用基于k-NN的方法来合成新实例,有效解决了少数类信息量不足的问题。为了验证该算法的有效性,我们将其与10种采样算法和两种集成算法在19个公开的真实数据集上进行了比较。实验结果表明,IA-SUWO算法在大多数数据集上明显优于其他10种过采样方法和两种集成算法。其中,IA-SUWO算法在Banana数据集上的采样和分类效果如图10所示。从图中可以看出,IA-SUWO有效地合成了大量含有重要信息的少数类边界实例,并且新实例分布更加均匀  

    图10 IA-SUWO在Banana数据集上的采样和分类效果  

    3)针对类重叠的问题  

    Barua等人[69]提出了一种多数类加权少数类过采样技术(MWMOTE)。MWMOTE首先识别边界样本,然后根据多数类到难以学习的少数类样本的欧氏距离为少数类样本赋予权重,最后在少数类的子集群中依据权重合成新样本。虽然MWMOTE相较于基于k-NN的过采样算法如BSMOTE和ADASYN具有一定优势,但它可能忽略远离多数类的小尺寸少数类子集群[70]。为了解决这一问题,Nekooeimehr等人[70]提出了一种自适应半监督加权过采样技术(A-SUWO)。该算法在边界样本识别之前,通过半监督层次聚类算法对少数类实例进行聚类分析,并利用分类复杂度和交叉验证自适应地确定每个子群需要合成的新实例数量。尽管A-SUWO在某些方面优于MWMOTE,但其聚类过程较为复杂,且采样效果不显著。为此,我们课题组[28]提出了一种基于凝聚层次聚类的MWMOTE算法(Cluster-MWMOTE)。作为MWMOTE算法的扩展,Cluster-MWMOTE首先利用凝聚层次聚类算法(AHC)对少数类进行无监督聚类。由于该聚类过程相对简单,Cluster-MWMOTE不仅可以避免忽略远离多数类的少数类小尺寸子集群,而且不会显著增加算法复杂性,效果较为理想。Cluster-MWMOTE算法与MWMOTE算法的采样效果对比如图11所示。

    图11 解决类间和类内问题的不同采样算法比较:(a)使用MWMOTE技术生成的新合成实例的分布;(b)使用Cluster-MWMOTE技术生成的新合成实例的分布。  

    4)针对多类不平衡问题  

    目前,解决数据不平衡问题的研究主要集中在二类不平衡问题上,但实际应用中,多类不平衡问题更具挑战。因此,在基于马氏距离的过采样(MDO)基础上,Yang等人提出了一种自适应马氏距离过采样(AMDO)方法,旨在解决多类不平衡问题。该方法通过捕获少数类的协方差结构,并沿着概率轮廓生成合成样本。Krawczyk等人[71]提出了一种基于径向的多类过采样(MC-RBO)方法。与仅使用少数类特征的现有多类别过采样方法不同,MC-RBO使用潜在函数生成人工实例。生成过程通过探索相互类分布的值非常小的区域来指导,能够应对困难数据分布并减轻现有方法的缺陷。我们团队[72]提出了一种基于SCOTE的多类LS-SVM状态监测框架。SCOTE利用“One-vs-All”策略将多类不均衡问题转换为多个二类不均衡问题。在每个二类子问题中,首先使用k-NN法过滤噪声;然后,利用最小二乘支持向量机(LS-SVM)的样本错分误差对少数类样本进行重要性排序,并基于k*INN思想合成新样本;最后,当所有二类不均衡问题解决后,多类不均衡问题也会得到解决。为了验证该框架的有效性,将其应用于CWRU、IMS轴承故障以及PHM2010、TTWD刀具磨损状态监测,并与其他16种监测框架进行比较。结果如图12所示,实验表明:SCOTE多类LS-SVM框架在数据有限且多类不均衡场景下的轴承和刀具状态监测中表现优于其他16种流行算法,且具有较强的鲁棒性,更适用于工程实际。为了解决过采样方法生成实例时忽略不同少数类实例之间内在特征,从而使合成实例变得冗余或无效的问题,Han等人[73]提出了一种基于全局-局部的过采样方法(GLOS)。该方法引入了一种新的离散性度量(DID),通过将少数类与每个类级别的离散值进行比较来区分少数类和多数类。然后,选择一些难以学习的实例,这些实例的实例级离散度小于相应类级实例的离散度,并根据离散度差异生成合成实例。这些选定的实例根据其本地分布被分配到不同的组中,并对每个组实例采用特定的合成策略。最终,所有少数类、部分多数类实例和合成数据将被用作训练数据,从而保证了合成实例的数量和质量。

    CWRU故障监测中多种不平衡分类算法的鲁棒性比较

    IMS I&II故障监测中多类不平衡分类算法的鲁棒性比较

    刀具磨损监测中多种不平衡分类算法的鲁棒性比较
    图12 SCOTE算法在不同数据集中,多类不均衡分类算法的鲁棒性对比

    虽然上述算法在处理数据不平衡问题上取得了一定成效,但它们主要基于特征向量建模,这可能在非特征向量建模问题(如时间序列数据分类)中效果不佳,或者不能直接应用于其他问题(如图像数据分类)。为了解决非特征向量建模下的不平衡分类问题,近年来研究者们对这些算法进行了扩展。Cao等人[74]提出了一种用于时间序列不平衡分类问题的综合过采样(INOS)技术,该方法主要使用增强结构保留过采样技术(ESPO)来估计少数类实例的协方差,以指导大部分少数类实例的生成。然后,利用ADASYN思想来指导其余少数类实例的合成。INOS旨在获得尽可能真实的均衡数据集。然而,ESPO的协方差思想在很大程度上依赖于原始少数类的样本分布情况,而基于ADASYN的思想可能无法有效处理重要的边界实例,这使得INOS容易受到噪声的影响,从而限制了其实用性。类似地,为了解决更复杂的不平衡序列分类问题(如高度不平衡、高噪声以及多元顺序数据等),Gong等人[75]提出了基于模型的过采样(MBOS)技术。MBOS使用递归神经网络学习序列的生成机制,以表示相应序列,并利用这些生成模型形成内核以捕获不同序列之间的相似性。最终,在内核特征空间中执行SMOTE以合成实例。尽管MBOS在内核学习中考虑了曼哈顿距离度量以确保不同类别的序列保持间距,但其假设序列是线性可分的,并不是所有序列在内核空间中都是可分的,因此该算法在内核空间中执行SMOTE时可能会受到噪声的影响,这也是其鲁棒性未明显优于其他采样技术的原因。Zhu等人[76]提出了一种结构保持的过采样方法(OHIT),用于解决高维不平衡时间序列分类问题。该方法利用基于密度比的共享最近邻聚类算法来捕获高维空间中少数类的模式,并对每种模式应用大维协方差矩阵的收缩技术,以获得准确可靠的协方差结构。最终,基于具有估计协方差矩阵的多元高斯分布生成结构保持合成样本。

    为了应对非特征向量建模下的关键零部件状态监测与预测我们课题组[72]提出了一种新框架基于改进样本特性的过采样技术(ISCOTE)和深度迁移学习技术(VGG16)的端到端多类不均监测框架。由于卷积神经网络(CNN)在提取图像特征方面具有独特优势[77][78],该框架首先利用VGG16对轴承和刀具的时域振动信号图像进行特征提取,即将图片样本向量化处理。然后,在特征空间内利用ISCOTE进行重采样(不同于SCOTE,ISCOTE可以调节每种少数类样本中需要合成的样本数)。最后,将采样后的特征向量输入多类LS-SVM分类器进行状态监测。该框架的状态监测流程如图13所示。

    图13 基于迁移学习和协同特征空间重采样策略的工业不平衡异常检测过程

    为了验证该框架在轴承和刀具状态监测及预测上的有效性和优越性,我们将其与8种流行的算法监测框架应用于IMS、CWRU轴承故障以及PHM2010、TTWD刀具磨损状态监测中。结果如图14所示。实验表明,ISCOTE算法在所有数据集上都取得了最佳结果,这表明该算法能够在特征空间内有效处理经过VGG16迁移学习提取的轴承特征向量,并合成数量合理且分布合理的新特征样本。对于CWRU和IMS数据集,未采样(No-sampling)表现最差,远低于采样的精度。这表明多类不均衡对基于VGG16迁移学习的轴承故障监测带来了极大挑战。

    其他算法效果不佳的原因包括

    • a) 部分算法过于复杂,导致效果不佳,例如,A-SUWO的复杂聚类过程使其在所有数据集中均失效;

    • b) ROS、SMOTE、ADASYN、MWMOTE等算法由于固有缺陷,不适合高维不均衡轴承数据的重采样。

    对于PHM2010和TTWD刀具数据集,未采样的表现并没有像前两个数据集那样最差,反而在PHM2010中表现优于大多数其他算法。这是因为刀具振动数据的信噪比低,且向量化后的特征向量维度很高,导致数据极其稀疏,给传统采样算法带来了挑战。ROS在大多数数据集中表现最差(过拟合现象),证明了这一点。类似地,其余算法效果不佳的原因包括:

    • a) 部分算法过于复杂;

    • b) SMOTE、ADASYN、MWMOTE等算法不适用于高维、稀疏的不均衡刀具数据。

    图14 9种流行重采样算法在轴承、刀具中的监测结果

    综上所述,所提的“VGG16+ISCOTE”框架成功地将基于振动信号图片样本的非特征向量多类不均衡分类建模问题转化为特征空间内的特征向量分类建模问题,不仅避免了人工特征设计过程,还在轴承和刀具状态监测中取得了优异的结果。
    过采样方法通过增加少数类样本的数量,可以有效解决噪声问题、类内类间不平衡、多类不平衡、时间序列不平衡和类重叠问题,从而提高分类器对少数类的识别能力。然而,过采样方法也存在一些缺陷和局限性,例如可能导致过拟合问题,增加计算成本和时间开销,以及可能引入冗余信息和噪声样本。因此,在应用过采样方法时需要谨慎选择合适的算法和参数设置,以平衡增加样本数量和保持数据特征的准确性。
    4.1.3 混合采样技术

    欠采样和过采样技术都有一定的缺点和优势,为了取得更好的采样效果,许多的研究人员将过采样和欠采样技术相结合,即混合重采样[79]。  

    1)针对噪声问题
    Batista等人[80]提出了SMOTE与Tomek Links相结合的混合采样技术(SMOTE-Tomek Links),该方法在处理噪声问题上优于标准SMOTE。陶等人[81]提出了一种结合逐级优化递减欠采样(ODR)和BSMOTE过采样的混合技术(ODR-BSMOTE)。该方法首先通过ODR去除大量冗余和噪声样本,从而保留更多有效特征信息;随后,利用BSMOTE仅在边界处合成新样本以平衡数据集。然而,由于数据分布的复杂性,准确识别真实噪声实例有时具有挑战性。为此,Zhang等人[82]提出了一种基于SMOTE和逆k近邻(RkNN)的混合重采样方法(SMOTE-RkNN),该方法通过RkNN为每个实例提供概率密度信息,并利用这些信息识别和删除噪声实例。但该方法主要对二类不平衡问题效果良好,对多类不平衡问题效果较差。
    2)针对类内类间不平衡问题
    Song等人[83]提出了一种基于K-means方法的双向采样技术,该方法通过保留多数类样本的聚类中心来进行欠采样,同时对少数类进行K-means聚类,选择样本分布稀疏的较小聚类进行SMOTE过采样。Pruengkarn等人[84]提出了结合模糊C均值聚类(FCM)和SMOTE的混合方法,称为FCMSMT。该方法通过将SMOTE与模糊C均值聚类结合,使得所有类具有相似数量的样本,并从每个集群中随机选择至少一个实例,从而解决类内和类间的不平衡问题。针对多类标签条件下少数类实例存在的类内不平衡问题,Liu等人[85]提出了基于局部标签不平衡的多标签合成过采样(MLSOL)和多标签基于局部标签不平衡的欠采样(MLUL)。MLSOL通过考虑所有信息标签,为困难示例创建更多样化且更好标记的合成实例,而MLUL则消除本地区域内有害的实例。为揭示类内不平衡和类间不平衡,Jiang等人[86]提出了一种半监督混合重采样(SSHR)方法,该方法利用半监督聚类来捕获过采样和欠采样的数据分布。首先,使用半监督层次聚类算法(SSHC)对数据进行标记,以指导整个数据集的聚类过程。然后,根据SSHC的结果进行混合重采样。多数类的标记数据根据其与聚类质心的距离以及与少数类聚类质心的邻接度进行欠采样。此外,该方法利用新颖的过采样方法,选择少数族群中的一些自信未标记数据作为伪标记数据,扩大训练集,从而帮助发现更多关于少数类分布的信息。
    3)针对多类不平衡问题
    Zhang等人[87]提出了一种改进的AdaBoost.M2算法,旨在解决多类不平衡协议流量问题。该算法首先通过计算所有类别样本的平均值来确定随机区间和采样平衡点,从而区分多数类和少数类。接着,对权重较大的少数类样本进行SMOTE过采样,并对权重较大的多数类样本进行聚类欠采样,以确保分类器对样本的充分学习。J. Rodríguez等人[88]提出了一种随机平衡集成方法,该方法使用随机生成的先验进行采样,并将随机平衡方法扩展到多数类不平衡数据集中。针对多类环境中的不平衡和概念漂移问题,Han等人[90]提出了基于混合采样和动态加权的多类不平衡数据流分类方法(HSDW-MI)。在混合采样阶段,该方法使用自适应谱聚类对聚类后的数据进行采样,保持原始数据分布;然后,根据样本的安全系数确定每类的抽样样本。在每个集群中,安全样本被过采样,不安全样本被欠采样。如果数据流极度不平衡,则从样本存储池中提取安全系数高的样本加入数据流。在动态加权阶段,该方法使用基于G-mean值的动态加权方法,G-mean值作为集成中每个基分类器的权重,集成在数据流处理期间动态更新,以适应概念漂移的发生。Grina等人[91]提出了一种基于信念函数理论和集成学习的重采样方法来处理多类不平衡问题。该方法首先对模糊的多数类实例进行欠采样,然后通过在边界区域生成合成样本来对少数类对象进行过采样,以改善少数类的边界。最后,为了提高模型效果,该重采样方法被整合到一个基于证据的、与分类器无关的融合集成方法中。
    4)针对类重叠问题

    Mahadevan等人[92]提出了一种混合采样技术,将SMOTE与随机欠采样方法结合。在数据预处理阶段,该方法对多数类和少数类分别进行欠采样和过采样,并将合成样本组合在一起。然后,将平衡后的样本实例进一步划分为N个子集,供基分类器进行训练,以提高分类器的时间效率。然而,许多研究人员认为,将SMOTE与欠采样方法相结合的方式无法完全避免SMOTE过拟合的缺点。因此,Hartono等人[93]提出了混合方法重新定义-多类不平衡(HAR-MI)方法,该方法根据类的重叠情况对多类进行平衡处理,并使用基于少数类过采样(M-SMOTE)与编辑最近邻(ENN)分别对少数类和多数类进行采样。Gao等人[94]提出了用于重叠区域的混合采样方法(OverlapRHS),该方法利用支持向量数据描述技术在多数类和少数类样本上分别构建重叠检测模型。通过将合成的少数类样本与邻域清洗相结合,对重叠数据区域内的样本进行混合采样。实验结果表明,该方法能够有效检测不平衡数据集中的重叠数据,改善了分类器训练效果。为了应对小样本异同问题、边界和稀有样本问题、以及类之间的重叠,Mostafaei等人[95]提出了欠采样加权平均边界SMOTE(USWAVG-BS)。该方法包含三个阶段:在第一阶段,特征空间被转化为异构值距离度量(HVDM)空间,并使用一个基于不平衡率的新公式来识别来自多数类的噪声示例。在第二阶段,来自多数类的噪声示例要么被转换为少数类,要么被移除,直到达到两个类之间的特定阈值。在最后一个阶段,使用类似于Safe-level-SMOTE和LN-SMOTE的方法生成新示例,通过强调少数类区域来进一步提升少数类的表现。

    混合采样技术通过增加少数类样本和减少多数类样本的数量来实现数据集的平衡。与单纯的欠采样方法相比,混合采样技术能够保留更多有价值的少数类样本信息,减少信息丢失。同时,相对于过采样方法,混合采样能够降低过拟合风险,减少重复样本和噪声样本的影响。然而,混合采样方法也存在一些局限性,如:

    • 1. 参数选择的挑战:混合采样方法通常涉及选择不同的采样策略和参数,这需要对数据集的特点有深入的理解和合理的调整,否则可能影响采样效果。
    • 2. 模型依赖性:混合采样方法的效果可能依赖于具体的分类模型。对于不同的算法和任务,选择适合的混合采样策略可能存在挑战。
    • 3. 信息损失问题:在过采样和欠采样的过程中,可能会导致信息的损失或变形,尤其是在少数类样本稀少、数据分布复杂的情况下,需要谨慎处理采样过程中的信息损失问题。

    总体而言,尽管重采样技术在不平衡分类问题上具有广泛适用性和灵活性,目前的研究仍面临一些挑战,特别是在处理复杂的不平衡分类问题时。现阶段的研究主要集中在基本的不平衡分类情况,如二类别不平衡问题。然而,在实际应用中,我们常常面临更复杂的场景一方面,高噪声问题是不平衡分类中的一个重要挑战。在现实世界的数据集中,存在大量噪声样本,这些样本可能对重采样方法产生负面影响,导致虚假的合成样本或错误地剔除有价值的样本。因此,如何在重采样过程中准确处理噪声样本仍是亟待解决的问题。另一方面,小样本下的高度不平衡问题也具有挑战性。在某些领域,如医学诊断或金融欺诈检测,可用的少数类样本非常有限,而多数类样本数量庞大。

    在这种情况下,如何有效利用有限的少数类样本,并保持数据的代表性和多样性,仍然是一个研究难点。同时,类内类间不平衡问题也是一个复杂的挑战。在某些情况下,不同类别之间的不平衡性可能同时存在于类内和类间,使数据分布更加复杂。针对这种情况,如何采用合适的混合采样策略来平衡类别间的不平衡性,同时保持类内的多样性和信息完整性,仍需深入研究。此外,高维不平衡问题、多类不平衡问题以及涉及时间序列分类、图像不平衡分类等非特征向量不平衡分类问题,现有的重采样方法在处理上也存在一定的局限性。这些问题需要结合领域特定的知识和技术,发展针对性的重采样策略和算法,以更好地应对复杂的不平衡分类情况。

    4.2 过采样技术生成对抗网络

    随着深度学习模型展现出强大的生成能力,这些模型也逐渐被引入到解决数据不平衡分类的问题中,其中生成对抗网络(GANs)[96] 是最常用的一种生成模型。GANs能根据原始数据分布生成与原始数据集相似的新样本,因此,GANs 可以被视为一种特殊的过采样技术。如图15所示,GAN 由一个生成器(G)和一个判别器(D)组成[97]。

    图15 GAN的生成过程

    在模型训练过程中,生成器 G 的目标是生成更加逼真的假样本,而判别器 D 的目标则是不断提高对真假样本的判别能力。通过两者的博弈,最终达到纳什均衡,此时生成的伪样本具有真实样本的特征,可以用于辅助训练。具有代表性的研究包括:Zhang 等人[98] 提出了一种基于深度学习的故障诊断方法,使用 GANs 来学习噪声分布与真实机械振动数据之间的映射,通过该方法生成额外的真实假样本以平衡并扩展可用的数据集。Guo 等人[99] 应用了一个一维辅助分类器GAN 来生成故障数据,然后利用合成数据和真实数据训练分类器,以进行不平衡数据的诊断。为了解决在不平衡数据集上基于深度学习的故障诊断性能恶化的问题,Wang 等人[100] 提出了一种新颖的双注意力生成对抗网络(DAGAN)。该方法首先构建注意力模型以选择性地增强每个位置的特征,并自适应地融合相互依赖的通道图。然后,将注意力模型嵌入到 GAN 中,以改进特征表示。DAGAN 可以有效地学习故障相关特征并生成足够的故障样本,从而在重新平衡的数据集上训练诊断模型,提高分类性能。

    虽然许多方法使用 GAN 解决不平衡问题,但大多数方法并未有效利用分类器与生成器之间的关系。因此,Choi 等人[101] 提出了一种新颖的三方结构,包括鉴别器、生成器和分类器,并结合决策边界正则化。该方法通过生成器和分类器的协作训练,生成少数类样本,逐渐扩大少数类决策区域,从而提高不平衡数据分类的性能。针对传统 GAN 在高度类不平衡数据集中生成少数类样本的问题,Dai 等人[102] 使用平衡 GAN 和梯度惩罚(BAGAN-GP)来生成不同的少数类样本。为了更好地解决极度不平衡条件下的数据增强问题,Li 等人[103] 提出了极度不平衡数据增强生成对抗网络(EID-GAN)。该模型利用新的惩罚函数,通过从生成实例的裁剪区域中减去异常值来引导生成器学习异常值的特征,并将惩罚函数的输出值与生成器损失结合,联合更新生成器的参数。此外,该模型还使用新的评估方法(如两个离群值检测器和 k-fold 交叉验证)来评估生成实例的可用性。

    由于不平衡数据中常常伴有噪声和类重叠问题,但大多数基于 GAN 的样本生成方法未涉及这些问题。Li 等人[104]提出了辅助生成相互对抗网络(AGMAN)。首先,生成器结合自动编码器(AE)构建解码器重构特征损失,以协助精确映射噪声分布与真实数据分布,生成高质量的假样本来补充不平衡数据集,提高小样本类不平衡故障诊断的准确性。其次,鉴别器引入了具有非共享双鉴别器的结构,通过设置双鉴别器的对立评分标准,实现双鉴别器之间的相互对抗,从而提高生成样本的质量和多样性,避免模式崩溃。最后,交替更新辅助生成器和双鉴别器,以生成同时欺骗两个鉴别器的假样本,并通过对偶判别器实现纳什均衡。

    为了解决 GAN 在拟合样本分布时的问题,Ding 等人[105]提出了基于轮盘赌选择方法的训练样本选择策略,使 GAN 更加关注类重叠区域。该方法设计了两种生成器训练损失,并提出了一种噪声样本过滤方法来提高生成样本的质量。然后,使用改进的 RGAN 对少数类样本进行过采样,以获得平衡的训练样本集,并结合集成学习策略进行训练和预测。此外,Zhang 等人[106] 提出了使用 GAN 框架的新型过采样方法,即G-GAN。在该方法中,估计少数样本的高斯分布以获得 GAN 潜在空间的少数类先验知识。通过采用混合策略获取噪声,生成器的一些噪声服从高斯分布,另一些服从随机分布。利用 Bagging 思想训练 G-GAN 生成分散的正样本,以避免过拟合。针对当前基于 GAN 的方法无法同时从时频域更新生成器的问题,Wang 等人[107] 提出了类傅里叶变换 GAN(FTGAN)。该方法通过引入基于自动编码器(AE)的类傅里叶变换(FLT)来提高合成数据质量。

    尽管GAN 在缓解数据不平衡问题上具有潜力,但仍面临一些问题,如梯度消失(当真实样本和生成样本之间的重叠极小或没有重叠时,Jensen-Shannon 散度成为常数,导致优化目标不连续)[108] 和模式崩溃(生成数据缺乏多样性)等。为解决这些问题,Arjovsky 等人[109] 提出了 Wasserstein GAN(W-GAN)。W-GAN用 Earth-Mover 距离代替 Jensen-Shannon 散度来度量真实样本和生成样本分布之间的距离,并用一个批评函数 f 替代 GAN 的判别器,批评函数f 需要建立在 Lipschitz 连续性假设上。尽管 W-GAN 彻底解决了训练不稳定和模式崩溃的问题,但也容易造成过拟合。为此,Liu 等人[110] 提出了结合深度遗憾分析的变分自编码生成对抗网络方法。该方法将变分自编码器与 GAN 相结合,学习真实数据的深层特征,并对结合 deep regret analysis 方法的判别器施加梯度惩罚,以避免模式崩溃,同时在生成器中采用特征匹配模块来防止过拟合。Ren 等人[111] 提出了 Few-shot GAN,该方法首先使用样本丰富的类进行预训练,然后开发基于锚样本的微调策略,使生成的样本既接近真实样本,又尽可能保留学习到的复杂样本分布。Liu 等人[112] 提出了深度特征增强生成对抗网络,用于合成故障类别,以解决轴承诊断能力的不平衡问题。该方法通过拉离函数、自注意机制和自动数据滤波分别克服了原振动样本的模式崩溃问题、深度特征强化学习问题和新样本的准确性及多样性问题。针对时间序列不平衡问题,Lee 等人[32] 提出了基于模型的过采样方法——以边界为中心的生成对抗网络(BFGAN)。该方法通过专门设计的附加标签来反映样本在数据空间中的位置重要性,并通过使用修改后的 GAN 结构生成人工样本。

    尽管生成对抗网络(GANs)在解决数据不平衡问题上取得了一定成果,但仍存在一些缺点和挑战。除了未能彻底解决梯度消失和模式崩溃问题外,基于 GAN 的不平衡分类方法还需考虑以下问题[113]:

    • 1. 训练资源消耗大:GAN 的训练通常需要大量的计算资源和时间。生成器和判别器具有复杂的结构和较大的参数量,对计算能力的要求较高,这可能限制了其在资源有限环境下的应用。
    • 2. 训练时间长:由于 GAN 的训练过程需要多轮迭代,每轮都需要更新生成器和判别器的参数,因此训练时间较长。对于大规模数据集或复杂任务,训练时间可能会进一步增加。
    • 3. 难以衡量训练进度:GAN 的训练过程中很难准确评估训练进度和生成样本的质量。缺乏明确的损失函数来直接衡量生成样本的质量,使得难以确定何时停止训练或进行调整。
    • 4. 不适合离散数据生成:GAN 主要用于生成连续型数据(如图像),对于离散型数据(如文本或分类标签)的生成可能效果不佳。生成离散数据仍然是一个挑战,需要采用其他方法和技术进行处理。
    • 5. 模型自由度高且不可控:GAN 的生成器在学习过程中具有一定的自由度,可能会生成看似真实但实际上不存在的样本。在某些应用场景中,这种情况可能不可接受。需要对生成器进行约束或设计合适的机制,以确保生成的样本符合实际情况。
    • 6. 可解释性差:GAN 生成的样本通常缺乏解释性,即很难理解生成样本的生成原理和背后的数据分布。在一些领域(如医疗、金融等),解释性对于决策的可靠性和可信度至关重要,因此需要关注生成样本的可解释性问题。

    4.3 特征提取

    数据维度较高时,类不平衡问题会加剧。重采样方法往往难以有效解决高维类不平衡问题[114]。相较而言,特征选择方法通过削弱数据集中不平衡的影响因素,甚至可以作为解决高维数据中类不平衡问题的单独方案[115]。特征选择的核心在于通过特定规则从特征集 合中挑选出区分多数类和少数类的关键特征,从而增强类别间的区分度,提高分类准确性。

    按照所选取的方式是否与分类器相关,特征选择可分为3种模型,如:过滤法(Filter)、嵌入法(Embedded)和包装法(Wrapper)[116]。

    • 过滤式特征选择方法[117]独立于分类器,按照一定的评价准则选出原始特征集中的特征子集。虽然复杂度低、通用性强,但分类准确率比较低。
    • 封装式特征选择方法[118]与分类器结合,通过顺序式或启发式搜索策略选择有较高分类准确率的特征子集,但在选择过程中需要根据分类器的训练和测试结果来判断子集的好坏。因此,计算代价较大。
    • 嵌入式特征选择方法[119]在分类过程中进行特征选择,该方式能有效解决封装式特征选择方法计算代价较大的问题,并且有很好的分类精度。

    具有代表性的研究如:Hou等人[120]通过一系列对比实验验证了Relief(基于最近邻规则的特征选择度量)、FAST(滑动阈值的特征评估)等过滤式特征选择方法的有效性。Yin等人[121]提出了一种基于类分解的新特征选择方法,其首先将多数类划分为相对较小的伪子类,并生成相应伪类标签;然后,对新分解的数据执行特征选择,以计算特征基于Hellinger距离的最优度量,该过程能在一定程度上克服样本分布不均衡对分类器的影响。Maldonado等人[122]采用嵌入式的特征选择方法选出有利于识别目标类别的属性去解决高维数据不平衡的问题。Zhou等人[123]提出了一种基于K近邻依赖性的在线特征选择(K-OFSD),在邻域粗糙集理论方面,K-OFSD 使用最近邻的信息来选择相关特征以获得多数类样本和少数类样本之间更高的可分离性。为了更好地解决高维不均衡问题,Maldonado等人[124]提出了一种通过缩放因子来惩罚特征集基数,并与代价支持向量机(Cost SVM)、支持向量数据描述相结合的特征选择方法。针对具有缺失值得高维不平衡数据,Zhang等人[125]提出了一种新的进化特征选择方法,该方法首先定义了基于填充风险的改进 RF-度量(RF-measure)来评估类不平衡情况下缺失数据对特征选择的影响,并以 RF-measure 为目标函数,提出了一种基于粒子群优化的模糊聚类特征选择方法。由于现有的基于邻域粗糙集的特征选择方法容易忽视数据分布的多样性和复杂性,难以从不平衡和高维数据集中获得这种全局最优特征子集。因此,Sun等人[126]提出了一种新的两阶段特征子集选择方案。首先,为了评估不同特征的分布,引入标准偏差系数来构造模糊多邻域半径集。然后,提出了模糊多邻域粒和模糊隶属度来建立新的 FMRS,并发展了代数角度的特征显着性度量,以平衡负类和正类中不同特征的近似性质和影响。其次,定义模糊多邻域条件熵,从信息的角度最大化类不平衡数据的信息量,然后通过融合上述两个评估视角,提供这种混合度量来充分评估类不平衡数据集的这种不确定性。这些内部和外部重要指标旨在获得此第一阶段基于过滤器 FMRS 模型的预选候选特征集。第三,可以开发一个控制因子来控制鲸鱼位置更新,当将依赖度和熵度量与缩减率相融合时,将构建一个新的适应度函数来评估这个最优特征子集。

    上述方法通过选择具有显著差异的特征来提升样本分类的准确性,但这种方法也容易导致部分重要信息的丢失,从而影响后续的分类建模。此外,目前的特征层面不平衡分类方法主要集中在特征选择上,而从特征提取角度根本性地解决不平衡分类问题的研究仍较为有限[127]。幸运的是,深度学习模型在特征提取方面展示了巨大的潜力,为在特征层面解决不均衡数据分类问题提供了新的思路[77]。例如:Ng等人[128]提出了一种基于双自动编码器网络的特征学习方法,旨在解决不均衡分类问题。Kumar等人[129]结合了基于深度残差网络(ResNet152)的深度特征学习算法和SMOTE算法,共同解决不均衡图片分类问题。Luo等人[130]提出了一种新颖的发散鼓励自动编码器,能够同时对多数类和少数类进行特征学习。为了减少维数灾难和过拟合,Subbiah等人[131]提出了一种基于深度学习的长短期记忆网络(LSTM)结合混合特征选择的方法(RMR-HFS-LSTM)。该方法将过滤器与包装器结合,用于识别最佳特征子集。通过基于实例的RReliefF和基于信息论的互信息滤波器特征选择,去除不相关特征以减少维数灾难,最后使用递归特征消除(RFE)包装器特征选择来调整过滤器选择的特征,从而减少过度拟合。Abdoli等人[132]提出了Bagging监督自编码器分类模型(BSAC),将监督自编码器与特征学习结合,用于分类样本,并利用Bagging机制处理特征空间中的不规则性。

    在当前的研究中,特征选择方法在应对高维类不平衡问题方面展示了明显的优势。通过选择具有显著差异的特征,特征选择能够增加多数类和少数类之间的区分度,从而提高分类的准确性。然而,这些方法也存在一些局限性。首先,特征选择可能导致重要信息的丢失,从而影响后续分类模型的性能。其次,目前的特征层面不平衡分类方法主要侧重于特征选择,而从特征提取角度解决不平衡分类问题的研究相对较少。

    特征提取通过深度学习模型挖掘数据集中的潜在特征,显示出很大的潜力。然而,在处理不平衡分类问题时,特征提取仍面临一些挑战:

    • 1. 数据需求:特征提取通常需要大量标记数据来训练深度学习模型,而在不平衡分类中,少数类样本往往稀缺,这可能导致模型学习到的特征不够充分或不够准确。
    • 2. 计算复杂度:深度学习模型的训练复杂度较高,尤其是在处理高维数据时,需要更多的计算资源和时间。
    • 3. 过度拟合风险:特征提取可能引入过度拟合问题,特别是在数据集非常不平衡且样本量有限的情况下,模型可能过度关注多数类样本,从而忽视少数类样本的特征。

    尽管特征提取在处理不平衡问题上具有显著潜力,但仍需进一步研究和探索如何有效应用深度学习模型进行特征提取,以应对复杂的不平衡分类问题。需要克服数据不足、计算复杂度高和过度拟合等挑战,以提升特征提取方法在不平衡分类中的效果和实用性。

    4.4 分类器改进

    标准分类器在处理不平衡数据时通常倾向于多数类,从而忽略少数类,导致分类效果不佳。为了解决这一问题,研究人员从算法机制出发,并结合不平衡数据的特点,对现有分类算法进行了改进,以提升少数类样本的识别率。常见的改进方法包括:代价敏感法[133]、单类学习法[134]、集成学习法[135]等。
    4.4.1 代价敏感法

    标准分类器通常以最小化误分率为目标,并假设各个类别的误分代价相等。然而,在实际应用中,各类别的误分代价往往不同。因此,许多研究人员建议在训练分类器时,应重点关注误分代价较高的样本,提出了基于代价敏感理论的分类方法[136]。在类别不平衡问题中,少数类样本通常更为关键,因此,通过提高少数类的误分代价,可以提升分类模型的整体性能。

    当前的代价敏感学习方法主要包括代价敏感直接学习[137]和代价敏感元学习[138]。代价敏感直接学习通过对标准分类器进行改造,使其目标从最小化错分率转变为最小化错分代价,从而实现代价敏感分类。代价敏感元学习则通过将样本的错分代价以样本权重的形式体现,并基于这些权重对样本集进行重构[127]。一些典型研究包括:Dhar等人[139]和Gu等人[140]将代价敏感思想引入支持向量机中,为不同类别样本赋予不同的错分代价因子,以最小化整体错分代价。Zhang等人[141]提出了一种基于“OVO”策略的代价成本敏感反向传播神经网络,以减少整体错分代价。Sahin等人[142]和马等人[143]将代价敏感思想应用于决策树,在计算分裂属性和剪枝等阶段,提升少数类样本的重要性。Wei等人[144]将不同惩罚因子(DEC)策略引入到不均衡分类的模糊支持向量机(IF-SVM)中,以确保少数类样本的重要性,这也体现了代价敏感的思想。最近,代价敏感学习思想被引入深度学习领域。Khan等人[145]提出了一种基于代价成本敏感的深度神经网络,自动学习多数类和少数类样本的稳健特征表示,从而增强特征的鲁棒性和判别性。Wu等人[146]提出了一种深度对抗转移学习模型,使用代价敏感的深度分类器来解决类不平衡问题。Ren等人[146]则提出了一种自适应计算样本成本的策略,解决了敏感学习中设置最优成本的困难。Zhang等人[147]提出了一种新型的代价敏感深度学习框架,专门用于解决时间序列分类中的不平衡问题。

    尽管代价敏感学习在解决不平衡分类问题上具有显著优势,但也存在一些局限性。首先,这些方法可能对数据集的分布和不平衡程度非常敏感。在极端不平衡的情况下,少数类样本数量极少,模型可能仍然难以充分学习到少数类的特征和模式,导致分类性能下降。其次,代价敏感学习方法通常需要额外的参数调整和模型训练,这增加了模型开发和调优的复杂性。此外,代价敏感学习要求准确定义和估计不同类别之间的代价或误分类成本,这可能需要领域专家的知识和经验,并需仔细权衡各种成本因素。如果代价估计不准确,可能导致模型决策产生误差。对于许多复杂任务,人类难以准确分配或识别不同类型的误分类代价[148],且人工设计的代价可能引入偏见。为了解决这些问题,研究者们开始将进化计算应用于代价敏感学习中[149],如利用遗传算法(GA)[150]、遗传规划算法(GP)[151]、粒子群优化算法(PSO)[152]、回溯搜索优化算法(BSA)[153]、差分进化算法(DE)[154]等对代价矩阵进行优化[155]–[158]。虽然这些算法在代价矩阵优化方面显示出一定的有效性,但仍面临一些问题和挑战。

    4.4.2 单类学习法

    在实际工业场景中,故障样本的收集往往非常困难,因此研究人员提出了利用单一类别样本来训练分类模型的方法[159]。单类学习法的核心思想是只对多数类样本进行学习,而忽略少数类样本,将多数类样本视为目标类别,其他样本视为离群点。由于该方法专注于多数类而忽略其他类别的信息,Bellinger等人[160]和Hempstalk等人[160]建议应谨慎使用单类学习法。然而,Krawczyk等人[161]认为,单类学习能够识别目标类与其他类别的独特特征,因此适用于处理类不平衡、类噪声和类重叠等复杂数据分类问题。Yin等人[162]通过自适应调整样本权重来解决单类支持向量机对噪声样本的敏感性。Luca等人[163]使用单类支持向量机来解决异常检测中的正常数据与故障数据的极端不平衡问题。Perez-Sanchez等人[164]指出,单类学习不需要考虑类别的不平衡性,因此可以训练出无偏的模型,从而对不平衡问题具有较好的鲁棒性。

    尽管单类学习可以有效减少训练成本,并对少数类样本不敏感,但该方法也存在一些局限性。首先,单类学习容易导致过度拟合,从而削弱模型的泛化能力。其次,现有的单类学习方法对阈值和核函数的选择高度依赖,这显著影响了其性能[127]。

    4.4.3 集成学习法

    与传统方法中只训练单个学习器不同,集成学习通过将多个弱分类器组合起来进行决策,从而提高整体准确度。然而,集成方法在处理类别不平衡问题时存在挑战[165],因此通常需要与其他平衡策略结合使用,以更有效地解决不平衡分类问题。目前,典型的解决方案包括:结合重采样技术的集成学习算法和基于代价敏感学习的集成学习算法。

    在将重采样方法与集成学习相结合时,可以进一步分为基于Bagging、基于Boosting以及混合集成的不平衡处理方法。其中,基于Boosting的方法通过调整训练数据的分布,重点关注少数类样本[127]。基于Bagging的方法则旨在获得有效的分类器,并保持基分类器的多样性[127]。例如,Chawla等人[166]将SMOTE与Boosting技术结合(SMOTEBoost),Seiffert等人[167]将随机过采样算法(RUS)与Boosting技术结合(RUSBoost),Wang等人[168]将SMOTE与Bagging算法结合(SMOTEBagging),Lu等人[169]结合了混合采样技术与Bagging算法,以提升不均衡分类效果。Sun等人[170]将SMOTE与具有差分采样率(DSR)的Bagging集成学习算法结合来处理不均衡数据,而陈等人[171]则将SMOTE、Bagging和Boosting技术结合(Rotation SMOTE)来间接增加少数类样本的采样权重,从而提升少数类样本的识别率。

    与单纯使用代价敏感学习算法不同,代价敏感集成学习方法通过集成学习算法来实现总体错分代价的最小化,而不是依赖单一分类器来体现不同类的错分代价,这避免了基分类器参数不断调节的过程。目前,代价敏感集成学习的常见方法包括利用不同策略更新Adaboost的类别权重。代表性的研究包括:AdaCost、AdaC1、AdaC2和AdaC3算法[172],这些算法在权重更新中引入了不同的代价。Masnadi-Shirazi等人[173]提出了一种新颖的基于代价敏感的Boosting算法框架,该框架通过在弱学习器的凸组合功能空间中推导出成本敏感损失,并利用梯度下降最小化这些损失,从而产生适合不均衡分类的提升算法。Krawczyk等人[174]通过集成多个代价敏感分类器有效提升了少数类样本的识别率。付等人[175]提出了一种适用于多标签问题的代价敏感集成学习算法,该算法通过自动学习多个弱分类器组合成强分类器来降低平均错分代价。Wong等人[176]结合代价敏感深度神经网络(CSDNN)与代价敏感深度神经网络集成(CSDE),利用随机欠采样和逐层特征提取来提升CSDNN的泛化性能。肖等人[177]将元代价敏感学习、半监督学习和Bagging等技术结合,提出了一种基于元代价敏感模型的半监督集成方法(SSEM),以解决高度不平衡条件下模型性能低下和大量无标签数据浪费的问题。尽管集成学习在处理不均衡数据时具有一定的优势,但也存在一些局限性:a) 不适用于高维不均衡数据,b) 基分类器类型和数量难以精确选择,以及c) 训练过程复杂且时间成本高[127]。

    综上,分类器改进在解决不平衡分类问题上具有一定优势。代价敏感法通过调整不同类别之间的代价权重,能够更好地处理不平衡数据集。它考虑了类别不平衡对分类性能的影响,赋予少数类别更高的代价,使模型更关注于正确分类少数类样本。这样可以提高整体分类性能。代价敏感法还具有灵活性和可调节性,可以根据实际需求对不同类别的代价进行调节,以平衡不同类别之间的分类关注度。单类学习法主要关注于少数类别的分类,忽略多数类别。这种方法可以更加专注地学习少数类别的特征和模式,提高对少数类别的识别能力。同时,单类学习法通过忽略多数类别,减少了多数类样本对模型训练的干扰,进一步提高了对少数类别的分类效果。集成学习法通过结合多个分类器的预测结果,能够获得更稳健和准确的分类结果

    在处理不平衡数据时,集成学习方法可以通过对多个分类器的加权投票或结合基分类器的输出概率来提高对少数类别的分类准确度。此外,集成学习方法还可以通过均衡样本分布、引入重采样技术或基于集成权重的策略,缓解不平衡数据带来的问题,提高少数类别的识别能力。然而,这些方法也存在一些缺陷需要深入探究。代价敏感法的关键在于合理设置代价权重,但如何确定权重的选择并没有明确的标准,需要经验和试验来进行调优。单类学习法主要适用于那些仅有少数类别的问题,而对于多类别问题,单类学习法可能无法有效处理。集成学习方法的性能高度依赖于基分类器的质量和多样性,如果基分类器之间存在较高的相关性,集成学习的效果可能会受到限制。因此,在应用这些算法时需要综合考虑它们的优势和局限性,并根据具体情况选择适合的方法来解决不平衡分类问题。近年来,随着机器学习和数据科学的发展,涌现了许多解决不平衡数据问题的方法。其中包括重采样、特征选择和分类器改进等技术。如表2所示,这些方法在处理不平衡数据时,各自具有独特的优势和缺点。然而,在现实世界的工业场景中,我们很少会孤立地使用某一种方法来应对不平衡数据的挑战[178]。相反,通过综合运用多种方法,我们能够更加高效地应对这一问题。例如,可以先使用重采样技术平衡数据集,然后再应用特征选择方法来选择最具区分能力的特征子集,并结合分类器改进方法来提高分类器的性能。

    表 2 不均衡分类方法的优缺点  


    编辑:李正平

    校核:陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超

    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除


    来源:故障诊断与python学习

    附件

    免费附件.txt
    ACT振动化学旋转机械通用航空航天电子python通信UM声学理论电机材料数字孪生控制FAST
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2024-11-14
    最近编辑:18小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 64粉丝 65文章 137课程 0
    点赞
    收藏
    作者推荐

    温州大学向家伟/吕东祯:电池累计寿命预测,成功搭建实验场景研究与现实场景应用之间的桥梁

    本期受文章作者投稿给大家分享一个电池退化数据集。如果有故障诊断相关方向研究人员希望宣传自己研究成果,欢迎大家在公 众号后台与小编联系投稿,大家一起交流学习。最近,由温州大学的向家伟和吕东祯团队,与南卡罗来纳大学的Bin Zhang团队以及巴黎矿校的Enrico Zio团队在《Cell》子刊上发表了一项开创性的电池寿命预测技术,展示了在电池累计寿命预测领域的重大进展。这一技术创新引入了“累积使用寿命”的概念。该预测方法简化了模型中多种影响因素的耦合,使其能在不同的应用场景中迁移使用显著,提升了实验室研究与实际应用的衔接。在大规模迁移测试中,该方法不仅稳定提高了早期寿命预测的准确性(误差降至5%以下),还能在便携式设备上实现毫秒级的实时预测,显示出卓越的工程实用性。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Battery cumulative life time prognostics to bridge laboratory and real-life scenarios论文期刊:Cell Reports(SCI一区Top)论文日期:2024.07论文链接: https://doi.org/10.1016/j.xcrp.2024.102164作者:Dongzhen Lyu(1, 5), Bin Zhang(2), Enrico Zio(3, 4), Jiawei Xiang(1), 机构:1 College of Mechanical and Electrical Engineering, Wenzhou University, Wenzhou, Zhejiang 325035, China2 College of Engineering and Computing, University of South Carolina, Columbia, SC 29208, USA3 MINES Paris, PSL University, 75272 Paris, France4 Energy Department, Politecnico di Milano, 20156 Milano, Italy通讯作者邮箱:lvdongzhen@hrbeu.edu.cn作者简介:吕东祯博士在锂电池寿命预测领域深耕近十年,自2020年起针对实车工况寿命预测中的技术瓶颈和应用难点进行了深入研究,开发了一系列工程方法,申请/授权7项中国专利、1项PCT国际专利、1项美国发明专利。专利技术曾被国内外多家研究机构采用近百台电动公交车进行示范性应用。针对实车场景下电池寿命预测研究的应用瓶颈,国内外多家研究机构于2023年12月开展合作,开发了一种基于累计里程量的寿命预测方法,成功采用60台电动公交车进行示范性应用。该方法采用累计里程量作为寿命指标来开发寿命预测方法,与吕东祯博士早在2021年7月15日提交的中国专利202110798763.5中的核心技术理念(其中权利要求1)保持一致。该示范性应用由北京理工大学、国家电动汽车工程研究中心,德国亚琛工业大学,尤利希-亚琛联合研究中心,明斯特亥姆霍兹研究所共同主导。同时受到了中国国家重点研发、中国自然科学基金联合重点项目、德国联邦政府和北莱茵州的共同资助。目录1 背景介绍2 研究出发点3 文章解析 3.1 全球规模最大、周期最长的性能退化实验 3.2 所开发的基于累积损耗特征的预测方法 3.3 惊人的一致性和迁移预测效果4 总结与展望5 课题组介绍1 背景介绍随着科技的不断进步,电池作为能源存储的重要组成部分,其寿命和性能预测成为了关键课题。传统的电池寿命预测方法多依赖于实验室条件下的测试,这些方法虽然精确,但在实际应用中往往难以反映电池在真实环境中的表现。因此,如何将实验室研究成果有效地转化为实际应用,成为了电池技术研究中的一大挑战。针对这一应用瓶颈问题,宁德时代新能源科技股份有限公司曾于2024年6月面向全球发布技术榜单:“基于实验条件下的电芯循环寿命预测已有不少研究,但是针对于实车工况下,真实使用场景、不同环境温度等影响因子的使用寿命预测,还缺乏真正的工程方法”。吕东祯博士在在该领域深耕数年,早在2020年10月份起就开始设计实施实车工况锂电池性能退化实验,针对这一技术瓶颈和应用难点进行了深入研究,面向实车工况开发了一系列工程方法并申请/授权7项中国专利、1项PCT国际专利、1项美国发明专利,有效应对了这一瓶颈问题。专利技术曾被国内外多家研究机构采用近百台电动公交车进行示范性应用。2 研究出发点测试并收集300个电池单体在实验室场景与现实应用场景下的性能退化数据。考虑了随机充放电电流、频率、深度以及多电池成组、环境温度的影响。该方法在建模过程中简化了多种影响因素的耦合作用,但反而却能够在多种应用场景之间实现相互迁移。在进行大规模迁移测试时,展示了持续稳定提升的早期寿命预测效果(最低误差低至5%)。在便携笔记本上实现了毫秒级的实时寿命预测能力,具有非常出色的工程实用性。3 文章解析3.1 全球规模最大、周期最长的性能退化实验实验过程共采用了两种类型的磷酸铁锂电池进行性能退化测试,分为A型和B型两种。其中A型电池具有1Ah的标称容量,共采用了150个A型电池。从中挑选了6个A型电池组成了两个3Ah的并联电池组。B型电池的标称容量为0.8Ah,共采用了150个B型电池。从中挑选了76个B型电池单体构成了18个电池组。其中包括2个1.6Ah的电池组,10个2.4Ah的电池组,8个4Ah的电池组。表 I. 不同电池单体和电池组的退化测试模式设定所有的电池单体和电池组均进行了性能退化测试,在标准模式、复杂模式或随机模式下进行了测试。表I详细列出了每种模式下的电池和电池组的具体数量。标准模式包括交替的完全充放电循环,使用额定的充放电设置;复杂模式用于模拟运行工况的复杂性;随机模式用于模拟运行工况的随机性。其中,随机模式在所有模式中占比最大,几乎所有处于随机模式的电池都有个性化的配置,使它们彼此不同。出于安全考虑,待测电池被放置在一个铝制的安全箱中,该安全箱没有进行隔热处理。这意味着昼夜温差和季节性温差会影响实验结果。因此,测试过程中还记录了实验期间的季节性温度变化,用以充分反映昼夜温度变化以及四季温度变化对电池性能的影响。图1. 电池单体及电池组的容量变化这项实验研究采用了大量的电池,每个电池分别经历了 500 次到 10000 次以上的充放电循环,全部电池单体和电池组的充放电循环次数的总和超过了 54.6 万次,测试时长的总和则超过 2600 万分钟。这项实验研究生成了超过200GB的退化实验数据,并且测试周期持续了 4 年(2020-2023 年),是目前世界上规模最大,最贴近实际运行工况,持续时间最长的电池退化实验,可以用于深入研究诸如日历老化和季节性温度影响等问题。在对实验结果进行分析后,图1展示了不同电池个体和电池组的测量容量与充放电循环次数的比较。其中不同的颜色用于区分不同的电池个体或电池组,很明显不同电池个体或电池组的数据是相互重叠的,充分展示它们之间的复杂差异。图2. 不同电池和电池组在不同测试模式下的容量变化虽然图2中展示了电池容量随充放循环次数的变化趋势,但很难从中发掘出清晰的规律。这是由于电池单体和电池组的退化过程之间存在着巨大的差异,同时不同测试模式也会导致明显的退化差异。3.2 所开发的基于累积损耗特征的预测方法现有的充电电池寿命预测方法大都是基于理想条件下的充电电池寿命测试。在试验测试中,充电过程和放电过程是在专业设备上交替执行的,故而可以保证充电过程和放电过程的完整性。也因此,传统的充电电池寿命预测方法大都采用充放电循环次数作为寿命。在实际应用中,充电电池的使用方式和频次取决于用户的随机使用习惯。而在这种随机充放电场景中,充电过程和放电过程大都是不连续且不完整的,因而所对应的退化数据具有很差的规律性,也非常难以进行分析。根据用户的使用习惯,在充电电池的使用过程中,可能其电量尚未完全用完时就会进行充电,或者其电量尚未完全充满时就需要进行放电使用。与此同时,放电过程中也可能会存在暂停和续接现象,例如需要暂时更换充电场所或充电场所内暂时的停电。此外,当用户的充电线发生接触不良现象时,可能会在短时间内产生数次极短的充电过程。对于手机来说,除非在关机状态下进行充电或存在软件设定,否则其充电过程必然同时伴随着耗电运行。对于便携式笔记本来说,可能会存在长期插电运行的使用场景,此时的充放电过程是难以界定的。故而在充电电池的实际应用过程中,基本不存在理想条件下的交替完整充放电设定,显然,以充放电循环次数为寿命是不准确且不合理的。充电电池的退化过程是非常复杂的,显然单独采用循环次数来描述退化过程是不准确且不合理的。在对前述复杂随机工况下的锂电池退化数据进行分析和研究后发现,采用累计损耗量作为寿命指标能够获取非常一致的退化趋势。由于并不是单单地对循环次数进行计数,这种方式在理论上显得更加的合理。图3. 采用累积放电量作为寿命指标3.3 惊人的一致性和迁移预测效果如图3所示,在采用累积放电量作为累计损耗寿命指标后,不同电池个体之间的退化一致性得到了显著的提升。图4. 采用累积放电量作为寿命指标后实现的高度一致退化趋势图4展示了应用累计损耗特征提取方法前后的领域差异。其中,其中黑色数据代表源域,红色的数据代表目标域。在采用循环次数作为寿命指标时(如图4a、图4b所示),源域中各个电池单体和电池组的总循环次数都比较少,均低于1000次循环,目标域中各个电池单体和电池组的总循环次数则较高,部分电池甚至超过了13,000次,这充分说明了源域和目标域之间的显著差异。在采用累计损耗特征提取方法进行处理之后(如图4a、图4b所示),黑色数据仍然代表源域,红色数据则代表目标域。从中可见,源域和目标域之间的领域差异明显减少了。这为本文所开发的寿命预测方法提供了坚实的实际基础。表 II. 不同方法在迁移应用场景下的早期预测误差对比表II展示了传统的预测方法在迁移预测场景下的早期预测效果,包括平均百分比误差和平均绝对误差。很明显,在采用本文所开发的预测方法后,A型电池目标域上的平均百分比误差从52.3%降至12.8%;B型电池目标域上的平均百分比误差从57.5%降至13.50%。此处需注意,传统的基于循环次数的寿命预测方法在源域(即实验室场景)中的预测误差也低至11.4%,但是在目标域(即实际场景)中高达52.3%,难以在实际场景中进行工程应用。此外,本文所开发的预测方法还遵循了简单实用和高效计算的原则,采用了非常高效的GPR技术,因此非常适合在便携式笔记本上进行计算。此外,所有方法在模型训练阶段的耗时都不超过1秒,并且预测耗时始终保持在10毫秒以下。训练阶段使用了源域中所有的电池数据进行模型训练,测试阶段同时预测了目标域内全部电池单体和电池组的失效寿命。执行运算的笔记本仅配备了AMD Ryzen 7840H处理器、16 GB内存,没有配置独立的图形处理芯片GPU。4 总结与展望本项目开发的方法将实验室场景中学到的电池退化模型成功应用于复杂的半充半放实际车辆场景下的电池寿命预测,并且实现了多种复杂工况之间的相互迁移。图5具体总结展示了本项目实验研究的全面性,并且客观展示了所提出解决方案的卓越性能。本项目的实验验证长达4年之久,并且其中设置的测试模式非常繁多,既包括贴合实验室场景的标准模式,也包括多因素耦合下的复杂模式,还包括贴合真实场景的随机模式,包括但不限于采用随机的充放电频次,随机的充放电时长,随机的充放电电流大小,随机的充放电深度等。与此同时,还考虑了昼夜变化所导致的高频低幅温度变化,以及四季变化所导致的低频高幅温度变化。本项目的实验研究共采用了两种型号的电池,各自均是同一批次,但是不同电池的仓储搁置时间是不同的,因此也考虑了复杂日历退化效益的影响。图5. 应用累计耗损特征提取方法前后的邻域差异5 课题组介绍该实验研究中全部电池单体和电池组的充放电循环次数总计超过了 54.6 万次,测试时长总计超过 2600 万分钟,是目前世界上规模最大,最贴近实际运行场景,持续时间最长的电池退化实验。对应的实验数据已经被命名为“WZU随机电池退化数据”,并面向全球开源共享。相关数据和代码的访问和使用权限遵循知识共享署名-禁止演绎 4.0 国际许可协议(CCBY-ND 4.0)。在使用或向他人分享这些数据或代码时,请务必采用统一的命名格式“WZU随机电池退化数据”(英文版本为 "Wenzhou Randomized BatteryData"),并引用以下来源文章:Dongzhen Lyu et al., BatteryCumulative Lifetime Prognostics to Bridge Laboratory and Real-Life Scenarios,Cell Reports Physical Science (2024), https://doi.org/10.1016/j.xcrp.2024.102164在分享数据或代码时,必须保持数据集的原始完整性,并提供直接访问原始数据的链接;严禁进行任何修改、处理、重组或重新打包。请务必访问下述链接获取许可协议的全文。X_MOL主页:https://www.x-mol.com/groups/DongzhenLyuResearchGate:https://www.researchgate.net/profile/Dongzhen-LyuGitHub:https://github.com/lvdongzhen/Wenzhou-Randomized-Battery-DataOnedrive:https://1drv.ms/f/s!AnQLciP1URipksZQPfoVLhdf67Y8mg如有任何疑问需要澄清,请联系吕东祯博士。电子邮箱:lvdongzhen@hrbeu.edu.cn 客官,球球再点个广告,再走吧~ 点击左下角阅读原文,即可在线阅读论文。来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习 福利任务 兑换礼品
    下载APP
    联系我们
    帮助与反馈