基于大数据模型的数字孪生建模方法

2年前浏览1348

致力于数字孪生体技术的研究与发展

通过解决方案和工程化应用造福人类

来源：智造苑

作者：陈吉红杨建中周会成

随着大数据、云计算等技术的高速发展，促进了人工智能技术的革命性进步，为数字孪生的建模提供了新的手段，指出了新的方向。采用大数据建模的方法，通过黑盒建模的方式，构建输入和响应之间的关联关系模型，由于数据的输入和响应是实际的数据，因此模型可以更准确地逼近物理世界，可以实现更准确的建模。需要指出，大数据模型并不是对物理模型的替代，而是对物理模型的良好补充。

1. 大数据建模的关键技术

大数据建模主要的关键技术包括工业大数据预处理技术、工业大数据可视化分析技术、工业大数据标记技术、特征工程技术和人工智能技术。

1）工业大数据预处理技术

本节的工业大数据的预处理技术区别于数据搜集时的数据清洗技术，数据清洗技术面向的是大数据中存在的错误数据、冗余数据和异常点，而本文所述的工业大数据技术则是在数据清洗以后进行的数据预处理工作，其目标是从高质量的数据中，提取出与目标问题相关的分量，其主要手段为滤波。

滤波的主要方法有滑动平均滤波、IIR和FIR滤波器滤波、基于小波分析的滤波和基于EMD的滤波方法。

滑动平均的滤波方法的本质是通过平均实现低通滤波，将波形加以平滑，减少信号中的高频振荡成分，其优点是对相位保持的较好，而缺点则是没有针对具体的频带进行滤波。

IIR和FIR滤波器则是设计脉冲响应函数的频响特性，进行特定频段的滤波，可以实现频段的精准分离，包括低通滤波器、高通滤波器、带通滤波器和带阻滤波器，其缺点是会影响原始信号的相位，这对原始信号相位有要求的分析需要谨慎使用。

基于小波分析的滤波和基于EMD的滤波方法，都是通过对信号的分解，再剔除出信号不相关的成分，剩下的信号成分即为目标数据，这种滤波方式更加具有针对性，但是代价是计算量较大。

上述方法各有利弊，可以结合具体的应用进行合理的选择。

2）工业大数据可视化分析技术

据研究表明，人类获得的关于外在世界的信息80%以上是通过视觉通道获得的，因此伴随着大数据时代的来临，对现在大量、复杂和多维的数据信息进行可视化呈现具有重要的意义。

数据可视化技术诞生于20世纪80年代，其定义可以被概括为：运用计算机图形学和图像处理技术。以图表、地图、标签云、动画或任何使内容更容易理解的图形方式来呈现数据，使通过数据表达的内容更容易被理解。图1所示为某车间工业大数据的可视化界面。

所谓数据可视化是对大型数据库或数据仓库中的数据的可视化，它是可视化技术在非空间数据领域的应用，使人们不再局限于通过关系数据表来观察和分析数据信息，还能以更直观的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。

01 数据空间：是由n维属性和m个元素组成的数据集所构成的多维信息空间；

02数据开发：是指利用一定的算法和工具对数据进行定量的推演和计算；

03数据分析：指对多维数据进行切片、切块、旋转等动作剖析数据，从而能多角度多侧面观察数据；

04数据可视化：是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。

新技术和新平台的出现，使可视化技术可以实现用户与可视化数据之间的交互，从采集分析数据到呈现数据可视化也做到一体化实现。目前数据可视化已经提出了许多方法，这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向象素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。

近年来，人们在数据挖掘的理论和方法上做了大量的研究工作，并以此为基础开发出不同种类的数据挖掘工具。但是，这些工具在处理大型的多维数据集方面仍然没有取得令人满意的挖掘效果。于是，人们开始在数据挖掘中借助可视化技术，使用丰富的可视化方式将多维数据直观地表示出来，进而利用人类特有的认知能力来指导挖掘过程。

因此，工业大数据可视化分析领域中产生了一个新的方向：可视化数据挖掘。利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道，使用户能够使用自己丰富的行业知识来规整、约束挖掘过程，改善挖掘结果。从而打破传统挖掘算法的黑盒子模式，使用户对挖掘系统的信赖程度大大提高。在可视化数据挖掘技术中，可视化的直接交互能力是挖掘过程成败的关键，对可视化技术在数据挖掘中应用形式和使用方法的研究是数据挖掘可视化急需解决的问题。

3）工业大数标记技术

在人工智能时代，人工智能算法中，相对于无监督学习算法，有监督的学习算法更为常用和有效，究其原因在于，有监督学习的算法的训练阶段是有标记的数据，使得算法融入了知识，进而使算法具有更好的精度和稳定性，因此，从算法的选择角度来讲，使用有标记的数据进行有监督的学习显然是更好的选择。此外，随着深度网络的不断发展，模型的参数动辄成千上万，为了防止模型的过拟合，必须输入更多的带有标记的样本，这就对样本的标记提出了更大的挑战，这甚至衍生出人工智能时代的蓝领工人——数据标记员，一方面是体力的考验，另一方面，在某些专业领域，还具有极强的专业性，因此大数据时代的数据标记成为了一项既重要又难以实施的技术。

为了克服人工标记带来的问题，需要采用自动标记的方式进行数据的标记。指令域大数据是将系统的输入数据标记在系统的响应之上的数据形式，天然地具有数据标记的属性，是人工智能亲和算法。但是标记的类型往往还涉及到具体的事件，指令域大数据的输入有时候囊括不了此种事件，因此仍然需要其他的标记方法进行补充。

其他自动标记方法，一般建立在现有的少量已经标记的数据基础之上，例如SMOTE算法和GAN网络。SMOTE算法通过对特征向量在特征空间进行插值处理，通过采样的方式形成新的样本。而GAN网络，则是通过生成和对抗网络进行拉锯式的博弈，形成新的具有标记的样本。SMOTE算法适用于一维数据，而GAN网络则在二维数据的生成中具有较好的效果。

4）特征工程技术

特征工程技术是用目标问题所在的特定领域知识或者自动化的方法来得到能够使机器学习算法达到最佳性能的特征的技术。通过将原始数据转化为特征，可以获取更好的训练数据使预测模型更好的处理实际问题，提升预测模型的准确率。它对于传统的浅层学习器（如支持向量机、逻辑回归等）而言是不可或缺的技术，因为数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。对于深层学习器（如卷积神经网络），由于存在特征自学习的隐藏层，可以自动学习原始数据中的敏感特征，对特征工程依赖较少。但是，隐藏层的特征自学习在深层学习的应用范围是有限的，特征工程在深度学习依然有着不可替代的作用。特征工程其主要对原始数据进行特征提取、特征选择和特征降维3个方面的工作。

特征提取主要是从信号处理的层面，对原始数据从时域、频域和时频域的角度进行特征提取，其目的是将原始数据转换为一组具有明显物理意义（比如 Gabor、几何特征、纹理特征）或者统计意义的特征。时域上一般可以提取最大值、最小值、峰峰值、平均值、方差、RMS、偏度、斜度、裕度等特征，还可以进行相关性分析得到相关系数。频域上一般可以提取频率中值、频谱能量等特征、核心频率等特征。时频域上一般可以得到特定成分的能量值等等。这些特征从更稀疏的角度描述了致密的原始数据，某种程度上已经进行了极大的数据量削减。

特征选择主要是从提取到的众多特征中提取出与目标问题敏感的特征，其目的是为了去除无关特征降低学习任务的难度，让模型变得简单降低计算复杂度和所需时间。在提取的众多特征中，有较多的特征与目标问题关联性小，在实际的应用中这些特征会加重模型训练负担有时候甚至会干扰模型准确度。所以进行特征的筛选在特征工程中是具有重要意义。常见的特征选择方法分为以下三种：

01过滤式(filter)：特征选择是一种不考虑后续机器学习算法只设计了一个相关统计量来度量特征的重要性作为选择指标的方法；

02包裹式(wrapper)：特征选择是使用随机策略将各个特征都分别作为输入量输入到所使用的机器学习模型中，并最终以机器学习模型的误差作为特征的评价标准进行选择的方法；

03嵌入式(embedding)：特征选择类似深度学习的隐藏层的特征自学习是将特征选择与学习器训练过程融为一体，两者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征选择；

特征降维主要是将原始高维空间的特征投影到低维度的空间，进行特征的重组，达到减少数据维度的目的。因为通过特征选择以后，还是存在特征矩阵维度大这一问题，会导致计算量增大、训练时间过长等对于模型不好的影响。并且由特征矩阵维度大会导致在对于某些变量的函数进行准确估计时所需训练样本数量呈几何级增加。降维常用方法有以下两种：

01主成分分析法（PCA）：通过构建原始特征的线性组合，形成组合内部最小关联的新组合，达到降低特征内部关联，降低维数的目的；

02线性判别分析法（LDA）：将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点，会形成按类别区分，一簇一簇的情况，相同类别的点，将会在投影后的空间中更接近。其目的不仅仅是降维，还可以使得投影后的样本尽可能按照原始类别分开。相比较PCA主要是从特征的协方差角度，去找到比较好的投影方式。LDA更多的是考虑了标注，即投影后不同类别之间数据点的距离更大，同一类别的数据点更紧凑。

5）人工智能技术

人工智能技术解决的是知识学习和决策问题，是大数据建模中最关键的核心技术。广义来讲，深度学习、迁移学习都属于机器学习(ML)的大类。但是，目前往往从狭义的角度解释机器学习，特指浅层学习器，而深度学习(DL)和迁移学习则属于深层学习器。因此，人工智能技术主要包括浅层学习（即机器学习，含增强学习）、深层学习（包括深度学习）和迁移学习。

①机器学习：是赋予计算机学习能力，使之可以归纳知识、总结经验、推理预测，并最终可以像人一样从数据中积累“经验”的技术。将机器学习算法应用于数字孪生建模中便实现了大数据建模。因此大数据建模可以理解为利用工业大数据来实现虚拟空间对物理空间的实时反映与预测，即以传感器收集的海量数据为基础，利用机器学习算法积累“经验”最终达到构建虚拟孪生空间的目的。如图2所示，机器学习有4种主要类型：监督学习、非监督学习、强化学习，所有这些都有其特定的优点和缺点。

②深度学习：从广义来讲，深度学习是机器学习领域中一个新的研究方向，强调通过增加学习的层数以提高算法的精确性，它被引入机器学习使其更接近于最初的目标——人工智能(AI)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习有两个主要特点：第一，含多隐藏层的神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于分类；第二，深度神经网络在训练上的难度，可以通过“逐层初始化”预学习来有效克服。如图3所示，典型的深度神经网络有卷积神经网络（CNN）、深度置信网络、循环神经网络。

③迁移学习：指一种学习或学习的经验对另一种学习的影响，以深度卷积神经网络为基础，通过修改一个已经经过完整训练的深度卷积神经网络模型的最后几层连接层，再使用针对特定问题而建立的小数据集进行训练，以使其能够适用于一个新问题。其放宽了传统机器学习中的两个基本假设，目的是迁移已有的知识来解决目标领域中仅有少量甚至没有有标签样本数据的学习问题。图4给出了传统机器学习和迁移学习过程的差异。

2.大数据建模的未来发展趋势

从技术发展的角度来讲，大数据建模一方面将会呈现特征工程与特征学习算法相结合的趋势，提升大数据建模的准确性；另一方面将会越来越多地探索无监督学习的算法性能提升和应用，解决数据标记的问题同时，赋予机器真正的类人学习行为。

从技术应用的角度来讲，由于物理建模在进行复杂系统建模是存在的不准确的问题，将会越来越多地将新一代人工智能的算法与数控机床相结合，以开辟新的技术路线，提升预测的稳定性与准确性，使得机床具有更好知识学习、积累与应用的能力。

因此，大数据建模一方面本身的内涵和外延将会得到极大的扩展和深化，另一方面，其将会在数控机床领域得到全面、广泛而深入的应用。

智慧+科普数字孪生

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2022-06-04