在上一篇《DTEmpower核心功能技术揭秘(1)--HierarchicalStratify分层分类技术》中,我们提到工业设计方法中往往大量采用了数据驱动的方式构建代理模型。但数据驱动的技术路线普遍存在着data-hungry数据规模依赖和dimension-curse维度诅咒的问题,而工业设计端的数据又存在着数据集规模小、单点价值密度高的情况。
面对小规模的工业设计数据集,代理模型的精度受到数据集“质量”的严重影响。如工业设计数据的分布一致性差异大、数据集中存在较多异常点时,基于机器学习算法的建模效果将被进一步削弱,这甚至影响到了“AI 工业”落地的效率。
针对数据分布一致性差异大、存在多种模式混合的问题,天洑软件针对性的自研了HierarchicalStratify分层分类技术。那么针对数据集中的异常点,天洑软件又有哪些创造性的处理方法和基于这些方法的成功应用呢。
图1 天洑软件针对小规模工业设计数据集存在的数据分布一致性差、有较多异常点的问题,在DTEmpower中分别集成了自研的HierarchicalStratify分层分类技术和AIOD智能异常点检测技术,这为工业AI的落地提供了很大助力
顾名思义,异常点是指数据集中偏离大部分数据的数据点,随着数据挖掘技术的快速发展,人们在关注数据整体趋势的同时,也越来越关注那些偏离数据整体趋势的异常数据点,因为这些数据点往往蕴含着更加重要的信息。因此异常点检测具有非常强的实际意义和广泛的应用前景。
目前市场上常见的开源异常点检测算法有基于统计的、基于聚类的和基于接近度量的等算法。这些算法固然可以实现异常点的检测,但均具有自身的局限性。
基于以上现状,天洑软件综合考虑了常见异常点检测算法的应用场景和工业设计数据集的特点,将数十种异常点检测算法和自研的调度算法有效结合,实现了适用范围更加广泛的的检测技术-AIOD(Artificial Intelligence Outlier Detection )智能异常点检测技术。
通过对多种异常点检测算法的有效结合和调度,用户可以“一键触达”式的使用AIOD智能异常点检测技术检测和删除异常点,而不用疲于算法选型,这为在实际工业应用中落地数据驱动技术扫清了另一障碍。该技术目前已集成于天洑DTEmpower软件之中。
二、AIOD智能异常点检测技术简介
AIOD智能异常点检测技术将数十种常见算法和自研调度算法有效结合。并支持3种级别的集中调度策略,如图2所示,分别为快速响应的(检测等级=1)、性能均衡的(检测等级=2)和细致搜索的(检测等级=3)调度策略:
图2 AIOD智能异常点检测技术的参数配置界面,用户只需配置异常点检测等级,模块即可自动进行检测
同时,AIOD智能异常点检测技术具有强大的默认设置和自适应性,如图3所示,支持一键启动数据清理流程,具有良好的用户交互特性。在大幅降低用户使用门槛的情况下,满足了绝大多数应用场景的异常点识别需求。
图3 AIOD智能异常点检测技术检测结果的用户交互界面,算法 会计算出每个样本的风险评分,并按照从大到小的顺序呈现给用户,方便用户选择。支持一键选择数据和一键启动数据清理,具有良好的交互体验和较低的使用门槛
1. 实验过程和结果
① 实验测试1-某工业数据集回归分析
i. 数据集介绍:该数据集为天洑软件的客户提供的工业数据集,含有15维输入变量V1、V2、...、V15和1维输出变量EQV1,数据集中共含有2400个样本,目标是建立输入变量和输出变量的回归模型。
ii. 建模方法:采用图4所示的建模方法,对输入和输出之间的映射关系进行建模。该方法采用了Random Forest随机森林、GBDT(Gradient Boosting Decision Tree)梯度提升树、ExtraTrees极限随机树和基于Bagging的BaggingDeFo共4种算法进行实验。
图4 针对某工业数据集,在DTEmpower软件平台上搭建回归分析的建模方案。使用AIOD智能异常点检测技术进行异常点检测和删除。DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程
iii. 实验结果:图5和图6的实验结果表明,随着AIOD智能异常点检测技术检测出的异常点被删除,回归模型的精度在不断提高,其中ExtraTrees的R2指标提高到了0.9以上。这充分说明了AIOD智能异常点检测技术在实际工业场景中的实用性。
图5 随着删除异常点的个数从0依次增加到25/50/100/200,4种回归模型的R2精度指标均在不断提高
图6 随着删除异常点的个数从0依次增加到25/50/100/200,4种回归模型的NRMSE误差指标在不断下降。结合图5,这充分说明了AIOD智能异常点检测技术在实际工业场景中的实用性
② 实验测试2-轴承剩余寿命预测
i. 数据集介绍:实验选取全生命周期的轴承振动数据集 XJTU_SY_Bearing_Datasets。数据集含有3种工况、每种工况下5个轴承,共计15个轴承的全生命周期的振动数据。
ii. 特征提取:将原始数据以4096个为一组,并计算每组数据的均值、方差、脉冲因子、偏度因子等有量纲和无量纲的12个特征,以此作为样本输入,轴承的剩余寿命作为样本输出,以此构造训练和测试样本。
iii. 建模方案:采用如图7所示方法对轴承剩余寿命进行建模预测,该方法采用了Linear Regression线性回归、Bayesian Ridge贝叶斯回归和Kernel Ridge核岭回归等8种算法进行实验。
在不剔除异常点、剔除25/50/100个异常点的实验条件下,分别对模型的R2和RMSE指标进行对比。
图7 基于DTEmpower软件平台的轴承剩余寿命预测建模方案,使用AIOD智能异常点检测技术进行异常点检测和删除。DTEmpower不仅提供了图形化的建模方法,还提供有大量算法可供用户选择
iv. 实验结果:图8和图9的实验结果表明,随着AIOD智能异常点检测技术检测出的异常点被删除,回归模型的精度有明显的上升趋势。这再次说明了AIOD智能异常点检测技术在另一工业场景中的实用性;
图8 随着删除异常点的个数从0依次增加到25/50/100,8种回归模型的R2精度指标均有明显的上升趋势
图9 随着删除异常点的个数从0依次增加到25/50/100,8种回归模型的RMSE误差指标均有明显的下降趋势。结合图8,这再次说明了AIOD智能异常点检测技术在实际工业场景中的实用性
图10 Kernel Ridge算法的预测结果随异常点删除的变化情况,随着删除异常点的个数从0依次增加到25/50,模型的预测结果在不断逼近真实值
2. 实验结果分析
③ 在实际工业场景中的应用案例和对比实验,证明了AIOD智能异常点检测技术针对不同的应用场景(如基于客户需求的回归分析和有着广泛应用的设备剩余寿命预测)和不同的算法(包括线性的和非线性的),均能轻松、有效的提高模型精度。这恰恰说明了AIOD智能异常点检测技术的通用性和易用性。
四、总结
面对形式多样、种类繁多的工业数据集,没有哪一种算法可以在数据建模中覆盖所有的应用场景。DTEmpower是天洑软件凭借着在工业设计和工业运维领域多年的耕耘经验,自主研发的一款通用的智能数据建模软件。
DTEmpower致力于为工业数据研究者扫清各种障碍、提供易用可信赖的技术支撑!该软件平台不仅提供了一站式的数据建模解决方案,还提供了功能强大的数据挖掘如异常点检测、高维可视化、特征工程等支撑技术。可以帮助用户快速、便捷的深入挖掘数据,为建立高精度的数据模型提供了一条高效可落地的实现路径。