DTEmpower是由天洑软件自主研发的一款通用的智能数据建模软件,致力于帮助工程师及工科专业学生,利用工业领域中的仿真、试验、测量等各类数据进行挖掘分析,建立高质量的数据模型,实现快速设计评估、实时仿真预测、系统参数预警、设备状态监测等工程应用。软件内置有图形化、零编码的数据分析建模环境,围绕数据清理、特征生成、敏感性分析和模型训练等环节提供丰富的AI算法,提供从模型搭建到模型管理应用的一站式解决方案,学习门槛低、模型质量高,零基础用户也能快速挖掘得到优秀的数据模型。
数据挖掘用于揭示数据背后存在的规律。在科学计算、工程设计、生产运维、商务管理等多个领域,从业人员会获得大量的数据,通过数据挖掘将其中所隐含的信息显式地提取出来,可以用于创造更大的价值。在本节中,将介绍包括数据准备、数据清理、模型训练等典型过程在内的精简案例,展示DTEmpower在数据挖掘方面的应用。该案例以基于Styblinski-Tang函数采样得到的299个算例和1个结果异常的算例作为原始数据,部分算例如图1所示,其中被红色标注的算例为结果异常的算例。
案例中Styblinski-Tang函数供包含五个输入变量x0、x1、x2、x3、x4,一个输出变量y,其中任意两个输入变量组成的函数曲面(其它输入变量值等于零时)如图2所示。
针对该案例,利用DTEmpower提供的智能数据清理算法AIOD和智能代理模型训练算法AIAgent进行智能数据挖掘。
双击打开DTEmpower软件,即可进入到如图3所示的界面。单击新建项目,即可创建一个临时项目文件,需要注意的是,临时创建的项目文件不会自动保存。如果想要保存项目文件,用户可以进入到项目中选择“文件-保存”,就可以保存工程文件到自己想要的指定位置。
新建项目之后,即会进入到DTEmpower的工程主页面,如图4所示。
进入工程主页之后,点击“导入数据”,即跳出数据集文件上传窗口。点击窗口中的“选择文件”按钮,即可选择本地磁盘中的数据文件加载至当前项目中,如图5所示。
数据集添加完成后即出现在左侧的资源菜单中,如图6所示。
上传数据集之后,单击选中数据集,在数据集的右上方,点击选择“数据建模”,会即弹出数据建模的两种模式选择,点击选择专业模式,如图7所示。这里可以根据用户自身需求更改流程名称和描述(非必须操作),然后点击确定按钮。
点击确定之后,原始数据的载入即以“数据读取”节点的形式加入至建模流程中。在建模画布与左侧资源树中均可以观察到新增的节点,如图8所示。
在建模流程中,原始数据载入后,需要依托“数据操作-变量设定”节点将变量指定为输入变量和输出变量两类,后续的数据清洗、特征工程和模型训练都将依托于输入和输出变量进行。
在顶部菜单栏中单击工具箱中的“数据操作”,即可展开右侧工具箱。选择其中的“变量设定”控件并拖拽至画布中,即完成了新节点的添加,如图9所示。
此时可以单击添加至建模流程中的变量设定节点,在节点属性弹窗中修改节点名、节点描述,方便查看和理解,如图10所示。需要注意的是,该操作不是必须的。
数据读取节点读取的原始数据将传递至变量设定节点,进行输入和输出变量的设定,因此需要连接数据读取节点和变量设定节点,如图11所示。
数据读取节点和变量设定节点连接完成后,会自动弹出节点间输入输出量的关联列表,系统会默认对类型匹配的输入输出量进行自动关联,用户可以根据自身需求进行增删改操作,如图12所示。
在DTEmpower提供自研智能数据清理算法AIOD,节点执行完成后,会为每条算例提供一个异常风险评分,分值越高该算例为异常点的可能性越高。将工具箱切换为数据清理,然后将AIOD节点加入至建模流程,如图13所示。
同变量设定节点一样,用户可通过单击AIOD节点的方式修改节点名称和描述,具体操作上文已经进行详细描述,此处不再赘述。经变量设定节点指定输入输出变量的数据将传递至AIOD节点,进行数据清洗,因此需要连接变量设定节点和AIOD节点,如图14所示。
如需调整节点的位置与距离以保持画布整洁,可以同时按住键盘“Ctrl”键并用鼠标进行框选,在弹出菜单中选择对齐方式等,如图15所示。
DTEmpower提供自研智能模型训练算法AIAgent,内嵌集成学习、数据分层分类及超参自学习模块的AIAgent无需用户具有算法基础或调参经验。
将工具箱切换为回归训练,然后将AIAgent节点加入至建模流程,如图16所示。
点击画布上的AIAgent节点,右侧将弹出节点配置面板。开启其中的“小数据集优化”选项,如图17所示。该选项适合在样本量在1000行上下的数据集开启,将耗费更多的训练时长,但模型精度也相对更高。
采用同样的方式可修改节点的名称,并完成节点间的连接,如图18所示。
建模流程搭建完成后,单击顶部菜单栏“开始”按钮后,建模流程中的节点即开始依次执行,其中执行至变量设定和AIOD节点时流程执行会自动暂定,用户在交互式配置弹窗中配置完成后才会继续向下执行,直至建模流程执行完成。
执行至变量设定节点时,自动弹出的交互式配置弹窗如图19所示。
如前文所述,变量设定交互式弹窗左侧为从原始数据文件表头中读取到的变量名称,右侧上栏为输入变量,右侧下栏为输出变量。用户在左侧勾选变量,然后单击表格间的移动按钮,即可实现输入和输出变量的设定,分别如图20、图21所示。在勾选变量时,支持Shift快捷键批量选择。
输入输出变量设定完成后,单击交互式弹窗右下角的提交按钮即可继续向下执行,如图22所示。
流程执行至AIOD节点后,会自动弹出数据清理的交互式弹窗,用户在该弹窗中可根据右侧列表中各算例给定的异常风险值辅以左侧的可视化图表,选择异常点。需要注意的是,右侧的算例列表是按异常风险评分由高到低排序的。左侧的可视化图表包含三种形式:柱状图、箱线图以及散点图,如图23所示。
通常而言,异常风险评分明显高于其他算例的算例是异常点的概率更高。在右侧列表中勾选或左侧散点图中双击算例点均可将对应算例指定为异常点;在右侧列表中取消勾选或在左侧散点图中双击已经被指定为异常点的算例,即可将取消对应算例的异常点指定。点击左侧“预览”按钮可以查看剔除异常点后的新可视化显示。
如图21所示,异常风险评分最高的算例即为真实的异常点,其异常风险评分在0.70以上,而其它算例异常风险评分最高为0.23。因此,将其指定为异常点后单击交互式右下角的确定按钮即可继续向下执行,直至整个流程执行完成,如图25所示。
建模流程执行完成后,展开资源树中AIAgent节点,单击model选项,依次选择输出变量、勾选响应面自变量、并配置其它输入变量的变量值后,单击开始绘图按钮后,右侧即显示训练得到的模型响应面信息,如图26所示。
为了验证AIAgent的优越性,本案例同时新建了对比工程,利用集成学习算法Adaboost节点代替AIAgent节点,在其它配置均相同的情况下,两者响应面对比如图27所示。
由图27可知,AIAgent响应面结果与真实函数空间趋势几乎完全一致,而Adaboost的响应面绝大部分区域的细节信息丢失。
DTEmpower更多详细介绍及软件试用,请搜索“天洑软件”前往官网下载试用。试用无需申请license,软件安装后可直接免费试用30天。