论文题目:
Review of resampling techniques for the treatment of imbalanced industrial data classification in equipment condition monitoring
论文期刊:Engineering Applications of Artificial Intelligence
论文日期:2023年8月
论文链接:
https://doi.org/10.1016/j.engappai.2023.106911
作者:Yage Yuan , Jianan Wei , Haisong Huang
机构:
Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China
作者邮箱:
魏建安,工学博士,贵州大学特聘教授,硕导,贵州省“产业技术创新副总”,研究方向为制造大数据与制造信息系统、航空航天领域关键零部件智能制造与运维、医工领域数据与图像处理等。主持国家级、省部级课题4项;发表相关领域论文近30篇,其中一作或通信发表SCI 1区Top论文8篇、2区论文1篇(综述),单篇最高被引150余次;科学出版社出版工业大数据与智能运维领域学术专著1部;授权国家发明专利3项;担任《航空动力学报》(EI)、《工业工程》、《数据采集与处理》、《中国测试》等领域知名期刊的青年编委;担任中国图学学会(CGS)可视化与认知计算专委会委员、中国图学学会(CGS)青年工作委员会委员、中国机械工程学会(CMES)工业大数据与智能系统分会专委会委员、中国图形图像学会(CSIG)遥感图像专委会委员、中国自动化学会(CAA)动态学习与智能医学专委会(筹)专委会委员、全国材料与器件科学家智库-电子信息材料与器件专家委员会常务委员等学术兼 职。
黄海松,工学博士、教授,博士生导师,贵州大学现代制造技术教育部重点实验室常务副主任、贵州省百层次创新人才,贵州省省管专家,贵州省科技拔尖人才、重庆市“巴渝学者讲座教授”,中国机械工程学会工业大数据与智能系统分会专委会委员、中国计算机学会工业控制专委会委员、《计算机集成制造系统》理事会理事、中国图学学会数字孪生专委会委员,以第一完成人或者主要完成人获得省部级科技进步奖一、二、三等奖励5项。
关键词:故障诊断;不平衡分类问题;小样本问题;重采样技术
生成对抗网络(GAN)作为一种创新的过采样技术,因其强大的生成能力在解决工业场景中的不均衡分类问题中得到了广泛应用。为应对非平稳工况下行星齿轮数据易受噪声干扰及早期故障特征提取困难的问题,Wang等人[205]提出了一种结合GAN和堆叠降噪自编码器(SDAE)的新型故障诊断方法。该方法利用GAN的生成器从行星齿轮箱振动信号中生成与原始样本分布相似的新样本,并将生成的样本与原始样本一同输入到鉴别器中。SDAE作为GAN的判别器,能够自动提取有效的故障特征并判断样本的真实性及故障类别。通过对抗性学习机制,优化生成器和判别器的性能,以提升生成样本的质量和故障模式分类能力。Yan等人[206]提出了一种基于变分自编码器(VAE)和梯度惩罚的条件Wasserstein GAN(CWGAN-GP-VAE)框架,用于生成合成训练样本,从而丰富基于机器学习的故障诊断方法的训练数据集,并应用于冷水机组的故障诊断。针对训练数据稀少和标签信息不足时传统模型失效的问题,He等人[207]提出了一种基于深度卷积生成对抗网络(DCGAN)的轴向柱塞泵智能故障诊断方法。该方法首先使用连续小波变换(CWT)增强故障特征,并通过DCGAN扩展数据集。接着,根据标记样本的数量,使用DCGAN和半监督GAN(SGAN)提取图像域的深层特征,并利用聚类算法对提取的特征进行分类,实现轴向柱塞泵轴承的故障诊断。随着环境问题和绿色能源需求的增加,风电场已成为全球可再生能源的重要来源之一。针对风机电组中样本不足和数据不平衡的问题,Liu等人[208]提出了一种基于条件变分生成对抗网络(CVAE-GAN)的迁移学习方法。Zhang等人[209]在此基础上利用CVAE-GAN模型结合多源信号融合进行多类风力涡轮机轴承故障诊断。该方法将多源一维振动信号转换为二维信号,并通过小波变换进行融合。CVAE-GAN模型结合了变分自动编码器(VAE)与生成对抗网络(GAN),引入VAE编码器作为GAN生成器的前端,并将样本标签作为模型输入,以提高训练效率。最终,这些样本用于训练CVAE-GAN模型中的编码器、生成器和判别器,从而补充故障样本的数量。最近,Du等人[210]提出了一种基于深度学习的生成对抗网络与增量学习支持向量机(SVM)模型相结合的方法,用于诊断数据中心空调系统的常见故障。
不均衡数据处理在实际工业场景下的故障诊断中具有重要价值,其好处包括以下几个方面:
1. 提高故障检测率:在工业领域中,少数类别通常代表故障或异常情况,而多数类别则代表正常操作或状态。通过处理不平衡数据,可以改善故障检测的准确性和灵敏度,使得模型更容易捕捉到潜在的故障信号,从而提高故障检测率。
2. 减少误报率:处理不平衡数据可以降低模型对正常样本的误报率。由于正常样本在不平衡数据集中数量较多,模型容易将正常样本错误地分类为异常或故障,导致误报。通过采用合适的算法和策略,可以降低误报率,提高故障诊断的可靠性。
3. 提高故障分类准确性:不平衡数据处理方法可以帮助提高故障分类的准确性。通过平衡数据集中各个类别的样本数量,使得模型更加关注少数类别的特征和模式,从而提高对故障类别的分类准确性。这有助于工程师或技术人员更准确地识别和解决实际工业场景中的故障问题。
4. 提高预防性维护效果:处理不平衡数据有助于发现隐藏在数据中的潜在故障模式和趋势。通过分析和识别少数类别的故障样本,可以预测和预防未来的故障事件。这使得预防性维护更加精确和高效,有助于提高设备的可靠性和生产效率。重采样技术能够有效地改善不均衡数据带来的问题,提高机械设备故障诊断的准确性和可靠性。
然而,尽管重采样技术在工业故障诊断中有一定的应用优势,但也存在一些缺陷和不足之处,包括:
1. 数据失真:重采样技术可能导致数据的失真或过度修改,从而改变原始数据的分布和特征。这可能会影响模型的泛化能力,并导致对新样本的预测效果下降。
2. 过拟合和欠拟合:不恰当的重采样方法可能导致模型过拟合或欠拟合。过拟合指模型过度学习训练数据的细节和噪音,导致在新数据上表现不佳。欠拟合则表示模型未能充分捕捉数据的特征和模式,导致预测能力不足。
3. 信息丢失:在一些重采样技术中,由于减少了少数类样本或增加了多数类样本,可能会导致少数类样本中的重要信息丢失或被稀释。这可能导致对少数类故障情况的识别能力下降。
4. 样本不平衡变化:重采样技术可能会改变数据集的样本分布,使得在训练和测试阶段的数据分布不一致。这可能导致在实际应用中的效果与实验结果存在一定差异。
5. 处理时间和计算复杂性:某些重采样技术可能需要较长的处理时间和计算复杂性,特别是在处理大规模数据集时。这可能会限制其在实时或高效的工业环境中的应用。
因此,为了弥补重采样技术的缺陷,许多研究人员将重采样与特征提取、分类器改进方法结合使用[178],代表性成果如下:
表4 故障诊断的各种方法
基于上述分析,我们认为在处理这四种问题时,未来工业不平衡监测和数据处理领域的研究重点应包括以下几个方面:
(1)小样本异质不平衡故障监测数据建模问题:在工业监测中,关键组件(如轴承和其他高端设备)的服务条件具有复杂性和变异性。收集环境恶劣,传感器种类繁多且各异。因此,收集到的运行和维护数据表现出混合特性,包括噪声不平衡、类内不平衡、多类不平衡和时间序列不平衡。在这种条件下开发高端设备的故障监测模型面临重大挑战。然而,大多数现有研究仅关注上述挑战问题中的一个或少数几个问题,未探讨这些异质特征之间的内在影响机制。因此,均衡处理的有效性受到限制,存在盲点。此外,从有限样本中提取有意义信息的能力也受到制约。因此,全面理解不同异质特征之间的相互作用,并充分利用异质小样本数据集中的故障样本信息,是工业故障监测领域的一个重要研究方向。
(2)动态不平衡操作和维护(O&M)数据处理协同模型调整问题:智能操作和维护高端设备的数字孪生过程正在快速推进,使其更接近实际工程场景,并要求高度准确的监测模型。在数字孪生背景下,工业不平衡故障预测建模面临新的挑战——动态不平衡操作和维护数据处理的协同校正。在这个阶段,需要不仅考虑操作和维护数据的异质特征,还需要准确感知因工作条件和环境因素变化而导致的数据变化。因此,需要相应地调整采样平衡方法。此外,操作和维护数据的时间特征变得尤为突出,常常表现出特征不平衡。因此,故障特征的提取、组合和校正成为新的挑战。因此,建立“工作条件 - 故障特征提取- 异质形式”之间的清晰映射关系,采用无监督和高效的故障特征提取方法,以准确感知操作和维护数据中的实时异质和不平衡变化,同时持续校正采样平衡模型,是至关重要的任务。
(3)不平衡异常检测模型的可解释性和可信度问题:基于深度学习的工业异常检测方法缺乏可解释性,被认为是黑箱,因此无法从根本上解释故障或异常的“为什么”。此外,这些方法基于大规模数据,可能与高端设备的实际运行条件不匹配。另一方面,传统的基于机器学习的工业异常检测方法在分类模型方面具有更强的可解释性。然而,由于对特征提取的人工专业知识的高度依赖,它们可能无法捕捉故障数据中的隐含特征,从而影响模型的可靠性。因此,不平衡异常检测模型的可解释性和可信度问题可能成为新的挑战。因此,以不平衡故障检测为例,提升跨领域和工作条件下故障检测模型的可解释性和可信度,考虑故障机制、物理模型和数据模型等方面,涉及故障机制的可解释性、特征提取的可解释性、采样的可解释性、分类模型的可解释性以及多模型集成决策的可信度等方面。这种综合和系统化的方法是一个具有挑战性的问题。
(4)解决极端不平衡问题的协同评估方法:由于一些异常数据难以收集,有时无法获得有用数据,导致从高端设备长期运行中积累了大量正常数据。这两个因素共同导致在大数据背景下的零样本学习问题,这对工业异常检测至关重要。这是因为传统的基于人工智能的监测方法假设可以提前获得异常数据,且训练和监测数据应属于相同分布。此外,缺乏异常样本用于模型评估也是有害的。因此,处理工业数据中极端不平衡问题的协同评估方法面临新的挑战。因此,探索如何在工业故障检测中获得高端设备关键组件的故障机制模型,生成足够的异常状态数据,利用迁移学习获取源领域模型,并研究适当的评估方案进行不平衡异常检测,具有重要意义。
(5)高端设备异常机制、物理模型和数据模型的协同研究:以故障监测为例,单一的故障机制模型可能不适用于复杂多样的工作条件。同样,单一的数据模型的可解释性和可信度也可能得不到保障,特别是在处理异质和不平衡的操作与维护数据时。因此,未来我们认为高端设备的“故障机制-物理模型-数据模型”协同研究是至关重要的。这项研究应致力于开发能够适应跨领域和跨工作条件场景的机制模型和物理模型,以及用于异质和不平衡故障分类的诊断模型。只有通过这些方面的协调与整合,我们才能从根本上解决极端不平衡工业异常监测中的挑战。
总之,通过对设备故障诊断中不平衡数据所带来的问题和挑战进行详细分析和描述,读者可以获得全面的理解,并深入研究这一领域。
1)TTWD车刀磨损数据集
图17 TTWD刀具全生命周期故障实验
2)IMS轴承数据集
图18 IMS轴承全生命周期故障实验
3)PHM 2010铣刀磨损数据集
图19 PHM 2010铣刀全生命周期磨损实验
4)CWRU轴承数据集
数据集获取可通过以下方式:https://www.kaggle.com/datasets/javadseraj/cwru-bearing-fault-data-set
图20 CWRU轴承故障实验
编辑:李正平
校核:陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除