在上一篇我们围绕着如何让算法不断逼近机器学习模型上限这个问题,介绍了AIAgent智能训练算法,本系列的第六篇主题将继续针对该问题介绍autoML超参优化技术。
在数据建模分析的实际应用中,算法中的一些超参数会对最终模型产生重要的影响,因此工程师需要做大量的参数调试工作,以期找到精度最高的模型。但是这个过程往往会花费大量的时间和人力成本。
图1 DTEmpower中每个算法节点都集成有超参优化功能,用户只需要打开“超参优化”功能按钮,即可在省去大量超参数调试过程的同时,获取精度较高的模型
基于DTEmpower的超参优化建模实战
1. 风机测点结构应力快速评估
② 建模方法:根据图2所示的建模流程,采用GBDT(Gradient Boosting Decision Tree)梯度提升树算法进行模型训练,分别在开启和不开启超参优化功能的条件下进行对比实验。
图2 基于DTEmpower软件平台的风机测点结构应力快速评估建模方案,选取了GBDT算法建立输入输出变量的映射关系。其中超参优化功能在算法节点的属性配置界面,用户只需点击相应按钮即可一键开启或关闭超参优化功能,非常便于使用
③ 实验分析:观察超参优化功能的打开和关闭对最终模型的影响。图3-1、3-2的实验结果表明,仅开启算法节点的超参优化功能,即可有效的提高模型精度,降低模型的预测误差。
图3-1 GBDT算法开启超参优化和不开启超参优化的预测值和真实值对比,可以看出开启超参优化的算法预测值(图中绿色折线)和真实值(红色折线)总体上更加接近
图3-2 GBDT算法在两种情况下的预测误差分布,误差分布的提琴图清晰的表明了开启有超参优化的算法预测误差分布更向0值靠拢。结合图3-1充分说明了超参优化功能在提高模型精度、降低预测误差方面的优越性
② 建模和实验方法:采用图4所示的建模流程,选取MDI PCA作为降维工具,并使用GBDT和随机森林2种算法用以训练出口浊度预测模型。对每个算法节点分别开启和关闭超参优化功能,观察模型的精度变化。
图4 基于DTEmpower软件平台的水处理系统参数长窗预测建模方案,方案中选取2种常见算法进行模型的训练。DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程,其中超参优化功能更是集成于每一个算法节点,能够很方便的节省用户的调参过程
③ 实验分析:观察超参优化功能的打开和关闭对最终模型的影响。图5所示的实验结果充分表明了超参优化对于提高模型精度的优越性。
总结
数据和特征决定了模型的上限,要让算法不断逼近这个上限,需要调试大量的算法超参数。DTEmpower集成了低门槛的autoML超参优化功能,可以帮助用户节省大量的调参过程。
通过实际工业场景中的应用案例和对比实验,也证明了autoML功能模块能轻松、有效寻找算法节点的最优超参数,可高效地辅助用户构建高精度模型。
DTEmpower软件平台提供的数据挖掘、特征工程和模型自动学习等一站式解决方案,不仅可以帮助用户快速、便捷地构建精度较高的数据模型,其技术的创新应用势必会给工业数据研究者持续带来福音。