开源代码推荐 | 面向大模型时代用于生成工业时序数据的时序增强条件扩散模型 本期给大家分享 文章《面向大模型时代用于生成工业时序数据的时序增强条件扩散模型》 。 本文提出了一种 多 元时间序列生成时序增强扩散模型,作者开源了完整代码, 适合于研究 扩散模型 在故障诊断领域应用的学习者。 (投稿方式点击这 ) 论文链接 :通过点击本文左下角 的阅读 原文 进行在线阅读及下载。 代码链接 :
https://github.com/Dolphin-wang/Diff-MTS
注 : 如果下载不了代码,文末有免费获取方法。
论文基本信息 论文题目:
Diff-MTS: Temporal-Augmented Conditional Diffusion-Based AIGC for Industrial Time Series Toward the Large Model Era
论文期刊: IEEE TRANSACTIONS ON CYBERNETICS
论文日期: 2024年
论文链接:
作者: Lei Ren, Haiteng Wang, et al.
机构:
School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191, China; The State Key Laboratory of Intelligent Manufacturing System Technology, Beijing 100854, China
作者简介:
任磊 ,北航自动化学院教授,工业互联网与建模仿真系主任,智能制造与仿真技术实验室副主任,复杂产品智能制造系统技术全国重点实验室专委会副主任。研究领域包括工业互联网与工业软件、智能制造与云制造、新一代人工智能与大数据、工业人工智能与工业大模型。
王海腾 ,北京航空航天大学三年级博士生,主要研究方向为工业大模型、工业AIGC、与工业时间序列建模预测。在IEEE TNNLS, IEEE TCYB, IEEE TIM, IEEE TII发表多篇论文,并担任IEEE TNNLS审稿人。获批首批国家自然科学基金青年学生基础研究项目。
目录 1 摘要
2 引言
3 时序增强条件自适应扩散模型
3.1 去噪扩散概率模型
3.2 条件Ada-MMD扩散方法
3.3 时间分解重建UNet
4 实验
5 总结
1 摘要 工业多变量时间序列(Industrial multivariate time series , MTS)是人们了解工业领域机器状态的重要视角。但由于数据采集难度和隐私的顾虑,用于构建智能维修研究和智能大模型的可用数据远远不够。因此,工业时序数据的生成具有重要意义。现有的研究多采用生成式对抗网络(Generative Adversarial Networks,GANs)来生成MTS数据。然而,由于生成器和鉴别器的联合训练,会使神经网络的训练过程不稳定。本文提出了一个基于时序增强的条件自适应扩散模型Diff-MTS,用于生成MTS。旨在更好地处理MTS数据复杂的时序依赖性和动态性。具体地说,提出了一种条件自适应最大均值差异(Conditional Adaptive -Maximum Mean Discrepancy, Ada-MMD)方法用于MTS数据生成。该方法提高了扩散模型的条件一致性。此外,建立了时间分解重构UNet (Temporal Decomposition Reconstruction, UNet, TDR-UNet),以捕获复杂的时序模式,进一步提高生成时序数据的质量。在C-MAPSS和FEMTO数据集上的实验表明,与基于GAN的方法相比,Diff-MTS方法在多样性、保真度和实用性方面都有明显的提高。
关键词: 人工智能生成数据,扩散模型,基础模型,生成模型,工业多变量时间序列
2 引言 工业多变量时间序列(Industrial multivariate time series , MTS)在异常检测[1]、剩余寿命预测[2][3]和故障诊断[4]中起着至关重要的作用。它是训练具有高精度推理能力深度学习模型的基础。然而,不同的时间尺度,噪声水平和不同的潜在特征等因素,造成了MTS数据的异构性。再加上不同工业公司的数据隐私问题,特定场景的可用工业时序数据很少。数据短缺已成为阻碍智能维修研究和工业大模型构建的严重问题。 之前的工业研究通常采用生成式对抗网络(Generative Adversarial Networks, GAN)来生成工业时序数据,但由于生成器和判别器的联合训练,以及GAN存在训练过程不稳定的问题,导致生成的工业时序数据可信度和可利用度不高。此外,工业数据涉及复杂的时间依赖性,这给生成模型提取趋势信息带来了挑战,从而降低了生成数据与原始数据之间的相似性。 数据生成技术提供了一种缓解数据短缺和增强测试环境的手段。常用于生成时序数据的AI生成(AI-generated content, AIGC)方法包括变分自编码器(Variational Autoencoders, VAE)[5][6][7]和GAN[8][9][10]等。然而,由于其重建损失函数,导致VAE通常无法产生真实的样本。基于GAN的模型使用的是随机生成器和鉴别器的对抗过程来创建真实的数据。CVAE-GAN[10]是一种用于轴承故障诊断的条件变分GAN,它采用分类器来区分不同类别的故障数据。CPI-GAN [11]将物理信息集成到GAN以生成退化过程,从而提高下游任务的准确性。这些方法减少了手动数据收集所需的时间和精力,并提高了模型的准确性。虽然生成模型在一些生成任务中取得了成功,但MTS数据生成仍然存在一些挑战。 首先,基于GANs的模型容易出现不收敛和不稳定的训练过程[12][13][14]。具体而言,MTS数据是低质量的,具有高采样频率和强噪声,这使得GAN中的生成器难以学习时序数据模式。因此,鉴别器可以很容易地区分真实的和生成样本。生成器和鉴别器之间的对抗性质要求研究者需要做出大量努力来稳定训练过程。 其次,MTS数据具有不同的条件(例如,故障类别和健康指标),并且生成模型生成具有特定条件(输入条件信息和生成的数据之间的一致性)的数据是具有挑战性的。为了引导样本的生成,一些方法[9][10][15]利用鉴别器或分类器来实现MTS数据的可控生成。但这些方法都需要联合训练额外的网络结构,降低了受控生成的条件一致性。 第三,MTS数据通常是不光滑的,并且具有复杂的时间依赖性,这会导致生成MTS数据很困难。也就是说,当前时刻的时序数据与先前时刻相关,但这种关系是非平稳的并且难以预测。这给生成模型提取趋势信息带来了挑战,从而降低了生成数据和原始数据之间的相似性。 去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)[16]被提出,通过模拟将输入数据向目标分布的扩散过程来对数据分布进行建模。虽然一些研究在生成具有连续像素值的图像方面取得了优异的效果[17][18][19],但它们缺乏足够的MTS生成能力,并且仍然难以解决上述问题。为了弥补这一研究空白,我们提出了一种时序增强的条件自适应模型,即Diff-MTS。该方法解决了以往研究中的不收敛和不稳定的训练问题,并证明了扩散模型生成传感器时间序列的能力较弱。具体而言,我们的贡献可以总结如下。 一种用于多元时间序列生成的增强扩散模型被提出,该模型结合了条件自适应和时间分解重构,解决了传统扩散模型在生成具有复杂时间依赖性的MTS时的不足。 一种无分类器的条件自适应最大均值差异(Adaptive Maximum-Mean Discrepancy, Ada-MMD)扩散方法被提出,用于控制MTS的生成,解决了联合训练分类器以控制生成的局限性。自适应MMD机制在潜在空间中自适应地学习互信息,增强了扩散模型的条件一致性。 一种时间分解重构UNet(Temporal Decomposition Reconstruction UNet, TDRUNet)被提出,用于去噪和恢复MTS数据。TDR机制被提出用于提取传感器时间序列的潜在模式和趋势信息,增强了扩散模型生成高保真MTS数据的能力。 进行了多种实验,以全面衡量在多个数据集上生成的MTS的多样性、保真度和实用性。结果验证了 Diff-MTS 的卓越性能以及扩散模型在生成MTS数据方面的巨大潜力。 3 时序增强条件自适应扩散模型 3.1 时序增强条件自适应扩散模型
与基于 VAE 的方法相比,扩散模型由于扩散过程具有高维潜在变量,使其能够生成高质量的样本。此外,扩散模型采用固定的扩散学习过程,避免了基于 GAN 方法训练不稳定性问题。从本质上讲,我们的方法将 DDPM 建立的原理扩展到一维多元信号生成领域。该扩散模型由两个主要阶段组成,如图1所示:扩散过程和反向过程。在扩散过程中,对原始时间序列 加入高斯噪声。该噪声依赖于时间步长 ,从 范围内的均匀分布中采样。我们将这些有噪声的变量称为 。扩散过程可以用一个马尔可夫链来定义,这个马尔可夫链保持固定,从数据 开始,以潜在变量 结束,具体如下公式所示。 其中, , 是噪声阵列。 和 分别表示扩散总时间步长和当前时间步长。当 时,整个过程逐渐将 转换为高斯分布变量 。 我们采用重参数化技术对其中的扩散过程进行修改,时间步长 处的值可计算如下: 其中, 是高斯噪声, , 。 反向过程承担去噪的作用以恢复 到 ,以便它最终可以从高斯噪声中恢复数据样本。为了实现这一点,通过训练好的去噪模型来预测扩散过程中添加的噪声。与扩散步骤类似,反向步骤由马尔可夫链定义: 其中 为去噪模型的参数。 在最初的 DDPM 工作中,使用了线性噪声表。尽管如此,在复杂的信号处理场景中,该调度未能产生最佳结果。强线性调度导致有噪声的时间序列迅速退化为纯噪声,导致在噪声引入阶段更快地丢失信息。为了缓解这个问题,我们实现了余弦调度。 其中,上式 为线性调度函数,下式 为余弦调度函数。 S 是一个偏移参数,设为 S = 0.008 。 余弦调度旨在在噪声处理步骤期间将噪声时间序列中的信息保存更长时间。 3.2 条件Ada-MMD扩散方法 要实现特定条件下工业时间序列的生成,需要将设备健康指标等条件信息纳入扩散模型。因此,我们开发了一种不需要显式分类器的条件扩散模型,并将设备的健康指标作为条件考虑。然后,为了保证扩散模型的条件一致性,引入 Ada-MMD 正则化损失自适应捕获互信息。这有利于在特定条件下生成样本与原始样本的对齐,促进它们的相似性。首先,我们将条件信息添加到反向过程中。逆过程的条件形式可以表述如: 那么, 和 的参数化可以用来定义: 其中, 表示估计的噪声, 为噪声时间表。根据上两式,可以通过估计的噪声恢复时间序列。 与标准逆向过程类似,如果对原始信号进行预测,则可以从噪声分布中推导出原始信号。之后,我们将噪声变量 ,时间步长 和条件信息 输入到我们的去噪模型 UNet 中,以估计噪声分布。为了将条件纳入到去噪模型中,条件信息被包含在优化目标中。在条件反求过程中,我们的目标是通过以下方式最小化噪声估计损失:
其中, 表示数据分布。这个函数可以对应噪声估计误差。给定一对样本,使用 DDPM 方法训练后,采样模型中包含的引导,将噪声指向 的方向,从而实现降噪。 为了提高真实时序与生成时序的相似性,我们的研究引入了条件Ada-MMD正则化损失。具体而言,从时间步长为 的扩散过程中导出噪声变量 ,然后计算具有条件信息的 Ada-MMD 正则化损失,以减少高斯分布与采样噪声分布之间的差异: 其中, 为带有条件信息的去噪模型预测的噪声。 表示一个正定核,旨在重现高特征维空间中的分布。虽然一般噪声估计损失 捕获来自欧式距离的信息,但条件 MMD 正则化将数据映射到高维特征空间以捕获分布之间的相似性。 参数 作为自适应系数,校准 MMD 正则化损失在整体目标函数内的重要性,这种配置允许动态调整模型对捕获互信息的关注。 3.3 时间分解重建UNet 设计了一个TDR-UNet模型来处理生成任务。该模型主要包括两个部分:输入嵌入模块和TDR-UNet模块。具体来说,该模型嵌入了输入,包括潜在变量 、条件 和时间步长 。UNet编码器和解码器用于预测在整个扩散过程中添加到原始数据中的噪声。为了捕获工业时间序列数据的时间依赖性,在编码器和解码器之间执行分解重建机制。详细架构如图2所示。
3.3.1 输入嵌入模块
为了保留数据内的时间关系,我们对每个输入样本启动嵌入变换。首先,方便输入到为了更好地被后续的UNet学习,隐变量 使用1-D卷积层嵌入。 其中 表示卷积层, 表示嵌入的时间序列。 接下来,离散时间步长 以正弦方式嵌入到连续特征 的两层全连接(Fully Connected, FC)网络中,使网络能够随着时间的推移理解数据: 其中, 表示正弦位置嵌入方法[30]。 表示时间步长 的初始位置嵌入,GeLU是一个激活函数。为了使输入信号包含目标信息,我们通过FC将条件信息转换成向量。 其中, 为全连接层。与离散特征的独热处理相比,我们采用FC网络在高维空间中进行连续嵌入。 是一个掩码编码函数。具体来说,我们设置一个参数来调整条件信息的影响程度。对于嵌入的条件向量,将其中的 设置为随机值。例如, 的值越大,则嵌入条件向量中的随机值就越大。这将导致更少的条件信息。
在所提出的UNet方法中,网络架构是基于U-Net框架[15]构建的,主要由三个编码器和三个解码器组成。每个编码器具有两个顺序的1-D卷积块,然后是下采样操作。在每个卷积块内,使用两个卷积层:第一层对输入信号进行卷积操作,然后通过GroupNorm变换处理并通过SiLU函数激活,如图3所示。 该架构集成了残差连接,将输入信号信息直接添加到编码器的输出中,并在解码器中进行卷积。此外,条件和时间步长信息被馈送到每个编码器的第一个卷积块中。解码器由两个卷积块组成,它们通过卷积操作逐步将信号恢复到其原始维度。这些卷积层包含跳跃连接,将编码器中相应层的特征与解码器中的特征融合在一起。 然后,在UNet编码器之后执行时间分解重构层。为了了解时间序列生成环境中复杂的时间模式,我们将时间序列分解技术应用于工业时间序列数据。给定输入 ,使用平均池化和最大池化对其进行分解,产生两组不同的特征: 和 。趋势部分有助于捕获数据中固有的平均趋势,而峰值部分的利用则有助于强调最大变化。每个部分都代表了更可预测的模式的潜在类别之一。随后,将这两个特征连接并馈送到一个卷积块中,以整合时间序列信息。 在时间序列分解后,对工业时间序列进行卷积注意力结构重构,首先对时间序列进行三个1-D卷积层处理,生成分离特征。然后,执行如下的注意机制: 其中, 、 、 为参数矩阵。 为比例因子。由于注意层能够突出显示有利于特征表示的重要字段,因此该层有助于学习平均部分和最大部分的细粒度信息。因此,网络更好地学习底层的模式。随后,该模型通过1-D卷积层重建时间序列信息。最后,通过UNet解码层和卷积层对重构信息进行处理,恢复原始尺寸。
表2 条件扩散模型采样算法伪代码
该方法首先构建一个神经网络模型用于工业时间序列数据的噪声估计。然后通过Adam算法最小化计算的损失函数来训练模型参数 。算法1中概述的这个训练过程,既提高了训练效率,又提高了收敛速度。该算法首先初始化模型参数并设置训练环境。首先,生成高斯噪声和选择扩散时间步长。然后,从条件数据集中得到相应的目标条件来引导扩散过程。计算潜变量,然后根据模型参数对添加的噪声进行估计。接下来,使用标准噪声估计和Ada-MMD损失的组合来计算模型的损失,并通过可学习因子进行加权。在处理完批处理中的所有实例后,基于损失的梯度,使用Adam优化算法更新模型参数。这个过程在所有epoch中重复,直到完全训练好的模型参数输出,准备部署或进一步验证。 一旦训练过程完成,该方法就以迭代方式生成特定操作条件的MTS数据。该过程在算法2中给出。第一步是确定扩散步骤的总数并获得噪声时间表。接下来,从高斯分布中采样随机噪声样本 。选择与数据生成相关联的工业设备的典型HI作为条件输入 。沿着随机噪声和时间步长,该输入用于第上面章节中解释的模型。后续步骤包括基于模型的输出计算噪声数据 ,并迭代此过程直到 。此时,去噪数据 用作生成的时间序列。 4 实验 4.1 实验和设置 数据集:我们在CMAPSS和FEMTO等工业时序数据集进行测试,与基于GAN的方法和其他扩散模型方法相比,所提出的Diff-MTS在多样性、保真度和实用性方面表现得更好。 评估指标:为了全面评估生成模型的性能,我们使用各种指标[11][33]来评估生成数据的质量,重点关注三个关键标准:多样性、保真度、有用性。多样性:生成数据应广泛分布,以覆盖原始数据的范围。保真度:生成数据应与原始数据难以区分。有用性:当用于相同的预测目的时,生成数据应该是有用的,比如在生成数据上进行训练,在原始数据上进行测试。
可视化:我们对生成数据集和原始数据集进行了t-SNE和PCA分析,为定性评估生成样本的多样性提供了二维表示,如图4所示。 判别分数:为了评估保真度,我们采用两层LSTM来训练时间序列的分类模型。我们将每个原始序列分类为“真实”,将每个生成的序列分类为“不真实”,然后训练一个两层LSTM分类器来区分这两个类别。我们将由生成时间序列和原始时间序列组成的数据集划分为70%用于训练集,10%用于验证集,20%用于测试集。测试集的分类精度提供了两个数据集之间相似度的数值度量。 预测评分:为了评估有用性,我们利用生成数据集使用两层LSTM来训练时间序列预测模型。该模型预测了设备在每个输入序列上的HI。然后,我们使用均方根绝对误差(Root Mean Absolute Error, RMSE)作为度量来评估训练后的模型在原始测试数据集上的性能。通过利用这些方法,我们在多样性、保真度和有用性方面对生成数据的质量进行了彻底的评估。
5 总结 本文把Diff-MTS作为一种时间增广的条件自适应扩散模型,用于工业MTS数据的生成。Diff-MTS算法有效地解决了GAN训练中遇到的不收敛和不稳定问题,能够从高斯噪声中恢复出高保真的信号。实验结果表明,Diff-MTS算法的性能优于基于GAN的方法,为工业大规模模型的训练提供了良好的解决方案,能够生成高质量的工业数据。 在未来的工作中,我们计划研究大型语言模型(Large Language Models, LLM)与工业信号生成模型的集成。例如,通过将LLM与时间序列预测模型相结合,LLM可以增强其特征表示能力。此外,给定工业设备的MTS数据,LLM可以提供有关设备故障状态或健康指标的信息,并提供维护建议。 编辑:曹希铭
校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、海洋、冯珽婷、陈宇航、陈莹洁、王金
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除