第四篇(2)一种基于无监督特征学习的机器性能评估健康指标构建方法 (实验结果与讨论以及结论)

1年前浏览1161

论文学习

非常尊重并感谢科研人员做出的辛勤贡献！若有侵权，烦请联系处理！

若有翻译不当之处，恳请批评指正！

本篇研究论文提出了一种基于无监督特征学习的健康指标构建方法，该方法通过多尺度自编码器网络学习传感器信号的特征，通过给特征分配不同的权重，强化有效特征并且抑制无用特征。通过计算基本样本数据与当前获取数据特征的相对相似度，并且将其作为健康指标来表示机器的健康状况。本文适合数据处理、设备性能评估、故障诊断等领域学者学习。

本篇将介绍第2篇：实验结果与讨论以及结论

正文共： 7354字8图

预计阅读时间： 19分钟

论文信息

论文题目：An Unsupervised Feature Learning Based Health Indicator Construction Method for Performance Assessment of Machines

期刊、年份：Mechanical Systems and Signal Processing，2022

作者：Liang Guo , Yaoxiang Yu , Andongzhe Duan , Hongli Gao *, Jiangquan Zhang

机构：

Engineering Research Center of Advanced Driving Energy-saving Technology, Ministry of Education, School of Mechanical Engineering, Southwest Jiaotong University, Chengdu 610031, China

1. 引言

2. 所提方法

2.1 多尺度自编码器网络

2.2 相对相似性度量

3. 实验和讨论

3.1 研究案例一：铣刀数据的健康指标构建

3.1.1 数据集描述

3.1.2 模型设计

3.1.3 健康指标构建

3.1.4 实验结果

3.2 研究案例二：轴承数据的健康指标构建

3.2.1 数据集描述

3.2.2 模型设计

3.2.3 对比结果

4. 结论

摘要

为了评估设备的退化过程，需要构建合适的健康指标，而现有的健康指标构建主要依赖于手动特征提取。这种手动特征提取需要丰富的专业领域知识作为基础，然而这种专业领域知识是难以获取的。为了实现健康指标自动构建，本文提出一种基于无监督特征学习的健康指标构建方法。此方法主要分为三个步骤：首先，建立一个多尺度自编码器网络，并且通过遗传算法优化此网络的超参数；其次，获取到的传感器信号直接输入上述构建的多尺度自编码器网络以自适应学习特征。通过给特征分配不同的权重，达到强化有效特征并且抑制无用特征的目的。最后，通过计算基准样本数据与当前获取的样本数据之间的特征的相对相似度，并将其作为健康指标来表示机器的健康状况。通过两个案例验证了所提方法的有效性。在这些案例研究中，使用趋势性和尺度相似性两个度量指标来定量比较本文方法与其他一些先进方法的性能。结果表明，所提方法构建的健康指标能够有效地识别设备的退化过程，并获得优于所对比方法的性能。

关键词: 故障预测, 健康指标, 多尺度卷积自编码器网络, 遗传算法, 相对相关距离

Ⅲ 实验结果与讨论

3.1 研究案例一：铣刀数据集的健康指标构建

在本节中，本文提出的方法将用于构建铣刀的健康指标，并与其他最新的方法进行比较。

通常，健康指标主要分为两类，直接健康指标和间接健康指标[7]。直接健康指标通常是用光学、辐射、视觉等直接测量。因此，直接健康指标具有捕捉实际几何变化的优点[8]。然而，在一些工业应用现场，直接测量显得不方便甚至大多数时候变得不可能。与直接健康指标不同的是，间接健康指标是基于设备运行过程中测量到的参数，这些参数与设备退化状态相关联。对于间接健康指标，并不会直接捕获设备状况，但是会从振动、声音和电流信号这些可测量的参数中提取设备状况。一般而言，间接健康指标构建方法包含三个步骤：（1）数据获取；（2）特征提取；（3）特征融合[9]。Lei等人[10]提取了轴承振动信号的时域、频域以及时频域特征，然后基于这些特征通过改进的自组织映射神经网络构建健康指标。Soualhi等人[11]提出了一种轴承和齿轮的健康监测方法。这种方法是从电信号中的时域和频域特征中构建新的指标。Duong等人[12]考虑了振动加速度信号的非稳定性，提出了一种轴承健康指标构建方法，这种方法使用了离散小波包变换，将原始信号分解为不同的子带，从每个子带信号中提取健康指标并且使用局部加权回归使之平滑。上述工作表明，源信号的特征提取是健康指标构建的重要一步。通常，特征提取过程是基于一些手工的信号处理方法，这些方法被称为手工特征提取方法[13，14]。然而，这些方法过于依赖相关领域专家的先验知识，而这通常很难获得。

为解决人工特征提取方法严重依赖领域专家先验知识的问题，提出了基于特征学习的特征提取方法。近年来，基于特征学习的方法在故障诊断领域得到了广泛的应用。Jia等人[15]提出了一种堆叠式自编码器神经网络，从振动信号的频域学习特征。与现有的一些智能故障诊断方法相比，该方法获得了更好的状态识别结果。在此基础上，提出了多种基于深度学习的故障诊断方法。Jing等人[16]设计了一种卷积神经网络，用于直接从振动信号的频域学习特征。Shao等人[17]开发了一种改进的卷积深度信念网络，用于滚动轴承的特征学习和故障诊断。结果表明，该方法比传统方法更有效。Guo等人[18]提出了一种多尺度注意力网络来学习铣刀特征并预测铣刀剩余使用寿命。Zhao等人[19]提出了一种深度残差收缩网络来提取高噪声条件下的特征。在深层结构中插入软阈值作为非线性变换层，消除不重要的特征。在现有的工作中，基于特征学习的故障诊断方法一般都是结合监督深度学习理论提出的。对于这些方法，需要带标签数据来训练有监督深度学习模型。但是对于机器的在线性能评估，由于机器装配的复杂性，带标签数据可能无法获得[20]。为了从未带标签的数据中学习内在特征，需要探索一些新的无监督特征学习方法。自编码器是一种学习将输入复制到输出的神经网络[21]。它有一个内部层，用来描述表示输入数据的代码。因此，自编码器被广泛应用于机械故障诊断领域。Ping等人[22]开发了一种基于对数正态分布的变分自编码器算法。该算法利用三层变分自编码器网络模型来学习和融合监测机器的特征。Sun等人[23]使用堆叠自编码器来学习特征。结果表明，所提出的稀疏堆叠去噪自编码器能够缓解标签数据的压力。Fan等人[24]提出了一种基于自编码器的方法进行无监督异常检测。在该方法中，设计了一个自编码器来捕捉建筑能耗数据的内在特征。上述论文中的自编码器一般用于学习未带标签数据的特征。虽然自编码器能够进行无监督特征学习，但对于时间序列信号，如振动信号、电流信号的处理比较困难。此外，在以往的工作中，网络结构都是人工确定的，这是一种耗时且严重依赖先验知识的方法。为此，在构建神经网络后，加入了智能优化算法，以提高神经网络的性能。Salah等人[25]利用遗传算法(Genetic algorithm，GA)寻找长短时记忆网络的最优时滞和层数。在电力负荷预测分析中验证了该方法的有效性。Hossain等人[26]应用遗传算法优化深度置信神经网络的隐藏单元数量、epoch数量和学习率。结果表明，该方法可以提高目标识别和抓取任务的性能。Abid等人[27]利用特征空间变换和基于分集因子(diversity factor)的遗传算法优化检测器在非自特征空间中的分布。实验结果表明，该方法能够显著减少现有故障检测框架的负载。尽管如此，将优化方法应用于工业监测数据的无监督特征学习领域的研究还很少。

在健康指标的构建中，除了特征提取之外，另一个重要的方面就是特征融合。近年来，提出了一些融合所提取特征的算法。Atamuradov等人[28]提出了一种基于数据融合的健康指标构建方法。采用自适应特征融合方法动态改变所提取特征的权值。Guo等人[29]开发了一种基于递归神经网络的健康指标构建方法。将时域、频域和时频域特征输入到递归神经网络中，将特征融合到轴承的健康指标中。Akhand等人[30]使用Jensen-Renyi发散技术对退化的多尺度熵特征与健康的多尺度熵特征向量的概率分布进行区分，从而形成所需的健康指标。这些特征融合方法只依赖于特征的绝对幅值，不考虑初始时刻特征值与当前时刻特征值的差异。这意味着机器的工况可能会影响健康指标的幅值。

为了解决这些问题，本文提出了一种新的基于无监督特征学习的健康指标构建方法。本文重点介绍该方法的主要构建过程：

（1）构建了无监督多尺度卷积自编码器网络(Multiscale convolutional autoencoder network，MCAN)，从监测信号构建的样本数据中学习特征。利用遗传算法对所建网络的超参数进行优化；

（2）一旦训练好网络，将初始时间的样本数据输入到MCAN中学习特征；

（3）对所有学习到的特征，根据趋势赋予不同的权重

（4）通过计算基准样本数据与当前获取的样本数据之间的特征相对相似性来表示机器当前的健康状况。为了验证所提方法的有效性，使用两个数据集进行了案例研究。在这两个案例中，所提出的方法得到了比三种比较方法更好的结果。

总之，两个主要贡献如下：

（1）构建MCAN，从三个不同尺度层次学习特征，能够学习到足够的退化信息。在训练过程中，利用GA搜索MCAN的最优结构。并且，只有在健康状态下采集的信号才用于训练。

（2）提出了一种加权相对相似度方法来构建健康指标。不同于以往对所有特征一视同仁的研究，本文提出的方法对所有特征赋予不同的权重，以强调有用特征，抑制冗余甚至消极特征。为了度量这些权重，根据构建健康指标的趋势，提出了二次规划。

本文其余部分的组织如下：在第2节中，详细介绍了所提出的方法。然后，在第3节中，使用两个数据集对提出的方法进行评估。在第4节中，得出结论。

Ⅱ 本文所提方法

所提方法的完整过程如图1所示。在第一阶段，MCAN通过训练数据集

进行训练，该训练数据集由运行在初始状态的机器监测数据构建而成。训练的过程是为了减少MCAN的重建误差。一旦MCAN训练良好，网络的编码器部分就能够从机器第二阶段的当前监测数据

中提取特征。为了提取有效信息，对所有特征赋予不同的权重。最后，计算当前时刻提取到的加权特征与初始时刻的距离来表示机器当前的状态。

图1 本文所提方法的完整架构

2.1 多尺度卷积自编码器网络

为了从监测数据中自动提取丰富的特征信息，本文构建了一种MCAN。MCAN是一种无监督的特征学习网络，通过无标签的样本数据进行训练。MCAN的网络结构如图1所示，由多尺度特征提取模块和重构模块组成。当在机器初始阶段通过一些无标签监测样本数据将MCAN训练的很好时，利用多尺度特征提取模块对当前监测样本数据进行特征提取。

如图1所示，多尺度特征提取模块包括个卷积运算层。在卷积层中，一组核与输入特征向量进行卷积。计算第卷积层的第个输出特征向量为:

式中*代表卷积运算，是激活函数，是层的第个特征向量，是卷积核，是偏置向量。

利用前两层conv_1和conv_2提取底层特征。然后，从conv_3到conv_5中提取高级特征，以获取不同感受野的特征。在所有层中，浅层的感受野都小于深层的感受野。因此，特征提取模块的目的是将样本数据编码为不同尺度的特征码。

然后，在重构模块中重构低维特征码。如图1所示，将多个重构模块嫁接到特征提取模块对应的不同尺度特征图上，表示各自不同的感受野。重构模块的结构与特征提取模块的结构是对称的。因此，通常将参数集

约束为

的形式，使用相同的权值对输入进行编码，并对潜在表示进行解码。在其他方式中，为了重构原始输入数据，可以使用：

损失函数的目标是使输入数据

和输出数据

之差最小。因此，通过优化重构目标函数来训练多尺度卷积自编码器网络。代价函数的详细定义为:

其中，

表示范数的平方，

为输入样本数据的重构输出，

表示层权重。正则化项

是一个超参数，用于平衡重构误差和权重的重要性。第一项测量了输入和输出数据之间的总平方误差。第二项表示权值衰减，用于限制权值的大小，从而限制拟合函数的复杂性。训练数据集

用于训练MCAN。使用式（4）采用随机梯度下降法更新权值：

式中

和

分别为隐态和重构样本数据的导数。为了保证每个尺度提取的特征映射的有效性，将权值更新过程分为四个步骤，包括三个子训练过程和一个微调过程。三个子训练步骤分别负责训练前三个、第四和第五编码器(解码器)，微调步骤只略微调整MCAN的权重。MCAN训练过程的详细过程如下：

训练好MCAN后，将当前监测数据作为输入样本数据，获得多尺度特征码。然后，将这些多尺度特征码融合为包含输入样本数据多尺度特征信息的特征向量。

在以往的许多工作中，研究人员通常通过不断调整超参数(包括卷积核大小、滤波器数量、优化器和学习率)来手动寻找最优网络参数。本文采用遗传算法自动学习神经网络的合适结构，其过程如图2所示。

图2 参数优化

对于每条染色体来说，它的长度是固定的，它上面的每一个基因代表一个特定的参数。在本文中，染色体的长度为23。前5个基因表示5个卷积层中过滤器的数量。接下来的十个基因代表所有层的内核大小。在其余的基因中，前4个基因和后4个基因分别代表四个训练过程中的优化器及其相应的学习速率。将含义一致的基因搜索区域设为相同，如表1所示。然后，通过不断地进行选择、交叉和变异操作，找到最优解。GA的具体流程如下:

如表1所示，表示所有层的内核大小。

表示卷积层中的过滤器数量。和

被称为训练过程中的优化器和相应的学习率。

表1 遗传算法的搜索空间

2.2 相对相似性度量

健康指标的构建旨在评估机器的退化过程。应该指出的是，机器中退化引起的力可能会增强监测信号。这意味着从退化机器获取的信号相对于从正常机器获取的信号会发生变化。因此，通过测量机器当前状态与正常状态之间的特征码的相对相似性来表示当前的健康状况。提出的相对相似度是基于相似性度量，这是一个量化两个对象之间相似度的实值函数。如图1所示，定义

处第一个红色特征码为基准特征码，表示初始健康状态。

处的蓝色特征代码表示第时刻的健康状况。两个密码之间的距离可以用来衡量它们的“相似程度”。当当前健康状态较初始健康状态有较大变化时，欧氏距离会增大。

首先，通过给定的基准样本数据

，计算出包含三个尺度上三个基准特征向量的基准特征码

，计算式由以下给出：

其中

表示构建基准特征码的样本数据个数，

表示针对第

个样本数据，在三种不同尺度上提取的特征。

由于它们所表示的实际含义的不确定性，这些代码的每个组成部分的重要性是不同的。因此，在任何时候对所有特征分配不同的权重，强调有效特征，抑制无用特征。那么，由当前样本数据

提取的当前特征代码与基准特征代码

的相对相似度可以用如下方法测量：

式中，

为第

个特征向量的长度。

和

分别表示基准特征码第

个特征向量中的第

个分量和当前第

个特征码中的第

个分量。所有时刻的健康指标向量为

，其中

为当前特征码总数。

表示第

个特征向量中第

个分量的权重。

为了调整所定义健康指标的权重，使所定义指数符合一定的趋势，采用了一种称为趋势度的指标作为优化函数。趋势度的详细信息描述如下：为方便起见，用

表示权重为

的健康指标向量

的趋势性。此外，我们希望特征具有与已构建健康指标相同的增长趋势。因此，对于趋势随时间增加的特征，其权重应为正，反之亦然。综上所述，该优化函数可表示为一般的二次规划：

其中

表示单位数，

表示第

台机器的健康指标，

表示所有特征的权重。根据第一个约束，将所有权值都约束到一个范围内，避免了不同机器的健康指标之间存在较大差异。第二个约束中的

是一个矩阵，用于确定权值的符号。

为对角线矩阵，其值是根据特征随时间变化的趋势来设置的。当特征随时间增加或减少时，矩阵的第

个对角元素为1或−1。对趋势递增、权重为正的特征进行约束，反之亦然，其表达式为：

对当前监测数据集

测量健康指标的过程如下：

注明

1、由于本文翻译篇幅过大，本篇到此结束，下一篇将介绍实验与讨论以及结论。

2、若需引用本文的公式、专业术语等内容建议再细读原论文核实；若本文对您的论文idea有帮助，建议引用原论文～

参考文献

[1] Guo L , Yu Y , Duan A , et al. An unsupervised feature learning based health indicator construction method for performance assessment of machines[J]. Mechanical Systems and Signal Processing, 2022, 167:108573-.

翻译：张勇

编辑：张勇

校核：李正平、张泽明

如需转载，请后台联系小编

说明：图片来源原论文，若有侵权，烦请后台联系处理

来源：故障诊断与python学习

Mechanical System 振动非线性光学建筑电力参数优化理论电机化机多尺度

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-06-22