一、概述
机器学习技术结合工业场景需求是当前的研究热点,但机器学习技术存在的诸如data-hungry数据规模依赖和dimension-curse维度诅咒问题影响着“AI 工业”落地的效率。为提高“AI 工业”建模的成功率,数据建模人员需要基于数据集特性选择适配的算法和解决方案。
天洑DTEmpower软件为此提供了多方位的辅助工具,以帮助建模人员更高效、更充分地获取当前数据的隐含模式,HDDV(High Dimensional Data Visualization)高维数据可视化技术便是其中富有特色的一项数据可视化功能。针对工业数据集特性,HDDV高维数据可视化技术拥有 1D/2D/3D散点图、柱状图、平行图等丰富的可视化图表库,用以辅助用户对数据集进行直观的分析,进而更好地发掘数据集中的隐含模式。
为了更好地提高用户对不同数据分布模式的认知能力,天洑DTEmpower软件在HDDV高维数据可视化模块中内置了实时交互的聚类模块,如图1所示。
综上所述,HDDV高维数据可视化技术,是继HierarchicalStratify分层分类技术、AIOD智能异常点检测技术等支撑技术的又一关键功能模块。
图1 HDDV高维数据可视化模块聚类效果图,由图可见某数据集可以明显地被分割成两个子类,借助HDDV可视化功能模块可以帮助用户在进行建模之前对于数据集本身有更深入的理解,做到“心中有数,对症下药”
二、HDDV高维数据可视化技术模块简介
为了更好地利用DTEmpower软件中的HDDV高维数据可视化模块,帮助研究人员呈现数据分布情况的视觉效果,用户应该具体怎样操作呢?
如图2所示,用户进入HDDV高维可视化配置界面后,只需选择相应的绘制变量、绘制维数、降维算法等参数,即可启动高维可视化的绘制流程。
图2 HDDV高维数据可视化参数配置界面,用户可以按照需求选择绘制变量、绘制维数、降维算法和数据变换等参数,操作流程清晰
三、基于DTEmpower的HDDV高维数据可视化建模实验
1. 实验测试
使用某测试数据集进行测试,该数据集的设计参数为x1、x2、x3,目标参数为y,有效维度为4(x1, x2, x3, y),通过设置不同的降维算法和不同的绘制维数,可以得到相应的可视化图像及结论。
图3 “降维算法=PCA,绘制维数=1”的箱形图,发现数据集中存在少量离群点,正常数据集中分布在lower与upper之间,50%的数据分布在Q1到Q3之间
图4 “降维算法=PCA,绘制维数=2”的散点联合图,可发现横轴上数据分布并不满足正态分布,说明数据集存在一定的非高斯模式
图5 “降维算法=PCA,绘制维数=3”的3D可视化展示图,可以发现数据集存在略为明显的“稠密-稀疏”两类数据分布模式
图6 “降维算法=isomap,绘制维数=3”的3D可视化展示图,可发现降维后数据集存在较为明显的“稠密-稀疏”两类不同模式
图7 “降维算法=tSNE,绘制维数=3”的3D可视化展示图,相比于线性降维方法,非线性降维方法可以发现数据集中两种不同的子类模式,这时推荐用户使用DTEmpower的HierarchicalStratify技术对数据进行训练
从上述实验得出的可视化图像,我们可以发现通过尝试线性或非线性的不同算法、不同可视化维度,DTEmpower软件中的HDDV高维数据可视化功能模块可将抽象的数据转换成直观、美观的图像。这增强了数据的可读性、协同性,从而辅助工作人员从更多元、直观的角度对数据集内部分布情况拥有更透彻的认知。
结合案例中的实验结果,HDDV高维可视化模块更是帮助用户发现了测试数据集中存在两种子类模式,这为后续有针对性的数据建模工作和提高建模的效率提供了有效的决策信息支持。
四、总结
面对形式多样、种类繁多的工业数据集,几乎没有哪一种算法可以在数据建模中覆盖所有的应用场景。因此,在开展具体的建模工作之前,对数据集进行细致、深度的挖掘,就显得很有必要。DTEmpower的HDDV模块提供了丰富的可视化图库模板,为用户“可视化”探索数据模式提供了一条便捷可信赖的技术途径。
DTEmpower致力于为工业数据研究者扫清各种障碍、提供易用可信赖的技术支撑!该软件平台不仅提供了一站式的数据建模解决方案,还提供了功能强大的数据挖掘如异常点检测、高维可视化、特征工程等支撑技术。可以帮助用户快速、便捷的深入挖掘数据,为建立高精度的数据模型提供了一条高效可落地的实现路径。