DTEmpower是由天洑软件自主研发的一款通用的智能数据建模软件,致力于帮助工程师及工科专业学生,利用工业领域中的仿真、试验、测量等各类数据进行挖掘分析,建立高质量的数据模型,实现快速设计评估、实时仿真预测、系统参数预警、设备状态监测等工程应用。软件内置有图形化、零编码的数据分析建模环境,围绕数据清理、特征生成、敏感性分析和模型训练等环节提供丰富的AI算法,提供从模型搭建到模型管理应用的一站式解决方案,学习门槛低、模型质量高,零基础用户也能快速挖掘得到优秀的数据模型。
在基于数据驱动的建模流程中,耦合专家知识可以大大增加模型的可解释性,且通常能够增强模型的泛化能力。在复杂工业场景应用中,专家知识通常是不可或缺的。在本案例中,将介绍在DTEmpower的建模流程中如何耦合专家知识。本案例基于如式1所示的函数进行原始数据采样,其中x1和x2作为输入变量,y作为输出变量。
采样过程中,指定输入变量的范围为[0, 1]、a=7、b=-0.4、c=1,并对采样结果中添加了10%的噪声,用以模拟实际生产生活中的干扰,随机采样获得的50组算例作为本案例的原始数据,如图1所示,需要注意的是x3作为中间变量,对采样过程而言是不可知的。
针对该案例,利用DTEmpower提供的特征提取功能和机理模型拟合算法实现数据与专家知识的耦合。
双击打开DTEmpower软件,即可进入到如图2所示的界面。单击新建项目,即可创建一个临时项目文件,需要注意的是,临时创建的项目文件不会自动保存。如果想要保存项目文件,用户可以进入到项目中选择“文件-保存”,就可以保存工程文件到自己想要的指定位置。
新建项目之后,即会进入到DTEmpower的工程主页面,如图3所示。
进入工程主页之后,点击“导入数据”,即跳出数据集文件上传窗口。点击窗口中的“选择文件”按钮,即可选择本地磁盘中的数据文件加载至当前项目中,如图4所示。
数据集添加完成后即出现在左侧的资源菜单中,如图5所示。
上传数据集之后,单击选中数据集,在数据集的右上方,点击选择“数据建模”,会即弹出数据建模的两种模式选择,点击选择专业模式,如图6所示。这里可以根据用户自身需求更改流程名称和描述(非必须操作),然后点击确定按钮。
点击确定之后,原始数据的载入即以“数据读取”节点的形式加入至建模流程中。在建模画布与左侧资源树中均可以观察到新增的节点,如图7所示。
利用特征生成,用户可将积累的工程经验或专家知识加入建模流程中,这种已知的参数间的部分机理关系,能够辅助数据挖掘算法,在有限数据集的条件下,建立精度更高,可解释性和迁移性更好的模型。此处假设用户已知中间变量x3与输入变量之间的关系,即可使用自定义特征提取节点将其加入建模流程中,具体操作如下。
将工具箱切换为特征生成,然后将表达式节点加入至建模流程,如图8所示。
同前述操作相同,用户可对添加至建模流程中的自定义提取节点名称和描述进行编辑。数据读取节点读取的原始数据将传递至表达式节点,进行中间变量x3的设定,因此需要连接数据读取节点和表达式节点,如图9所示。
机理模型拟合将依托于输入和输出变量进行,因此需要对输入输出变量进行设定。将工具箱切换为数据操作,然后将变量设定节点加入至建模流程,如图10所示。
变量设定节点添加至建模流程后,可采用与前文描述相同的方法对其节点名称和节点名称进行编辑。通过表达式节点增加中间变量x3的数据将传递至变量设定节点,进行输入和输出变量的设定,因此需要连接自定义提取节点和变量设定节点,如图11所示。
6)机理模型拟合——显函数
DTEmpower提供机理模型拟合节点显函数,它能基于训练数据,对机理关系中的未知参数进行求解,这些未知参数往往与工况和外部条件有关,是不确定的。
此处假设用户已知中间变量x3与输出变量之间的关系,即可使用显函数节点将其加入建模流程中,具体操作如下。
将工具箱切换为回归训练,然后将显函数节点加入至建模流程,如图12所示。
采用同样的方式可修改节点的名称,并完成节点间的连接,如图13所示。
基于工程经验的特征生成和机理模型拟合需要通过DTEmpower的模型聚合功能固化,固化后的模型接收输入变量x1、x2,在计算得到中间变量x3后,利用机理模型拟合得到的x3到输出变量y的映射关系预测输出变量y的值。将工具箱切换为模型操作,然后将聚合节点加入至建模流程,如图14所示。
采用同样的方式可修改节点的名称,并完成节点间的连接,如图15所示。需要注意的是,特征提取规则和机理模型都应被记录和保存,因此表达式节点和显函数节点均需连接至聚合节点。
建模流程搭建完成后,单击“开始”按钮后,建模流程中的节点即开始依次执行,其中执行至表达式节点、变量设定节点和显函数节点时流程执行会自动暂定,用户在交互式配置弹窗中配置完成后才会继续向下执行,直至建模流程执行完成。
执行至表达式节点时,自动弹出的交互式配置弹窗如图16所示。
左侧为新提取的特征(变量)列表,用户可通过新建按钮添加新的特征(变量),右侧为自定义特征的计算公式,同时提取多个特征时,每个特征计算公式为一行。针对本案例的特征提取配置结果如图17所示。
特征提取完成后,单击交互式弹窗右上角的应用按钮即可继续向下执行,直至运行至变量设定节点。执行至变量设定节点时,自动弹出的交互式配置弹窗如图18所示。
采用与前述案例相同的操作在变量设定交互式弹窗中对输入输出变量进行设定,对于本案例而言,其设定结果如图19所示。
输入输出变量设定完成后,单击交互式弹窗右上角的提交按钮即可继续向下执行,直至运行至显函数节点。
执行至显函数节点时,自动弹出的交互式配置弹窗如图20所示。
其中弹窗左侧为待拟合参数列表,右侧为输出变量的计算公式。本案例中存在3个待拟合的参数a、b、c,其与中间变量x3和输出变量y的关系如
所示,因此本案例的显函数拟合配置如图21所示。优化算法选择SLSQP。
需要注意的,模型聚合节点选择的聚合方式有串行和并行,默认的串行顺序是根据用户连线到模型聚合节点的顺序,用户也可单击模型聚合节点,自行配置聚合方式和串行顺序。对于本案例而言,模型聚合方式是串行,串行顺序是表达式在前,显函数在后。
单击交互式弹窗右上角的应用按钮即可继续向下执行,直至运行至建模流程执行完成,如图22所示。
建模流程执行完成后,展开资源树中模型聚合节点,单击model选项,依次选择输出变量、勾选响应面自变量、并配置其它输入变量的变量值后,单击开始绘图按钮后,右侧即显示训练得到的模型响应面信息,如图23所示。需要注意的,对于聚合后的模型而言,其输入变量为x1、x2,输出变量为y。
为了验证专家知识耦合的优越性,本案例同时新建了对比工程,分别利用集成学习算法Adaboost和GBDT直接拟合输入变量x1、x2和输出变量y之间的关系,在其它配置均相同的情况下,三者拟合对比如图24所示。
由图24可知,融合了机理的DT模型的测试精度为99.99%,相对于其他对比算法有均所提高,证明了DTEmpower在机理融合方面的强大能力。
DTEmpower更多详细介绍及软件试用,请搜索“天洑软件”前往官网下载试用。试用无需申请license,软件安装后可直接免费试用30天。