一、概述
在上一篇《基于DTEmpower的水处理系统参数预测 - 内因篇》中,我们实践了基于监测参数自身时序历史信息构建预测逻辑,对于部分监测参数实现了较高的预测准确率(R2≈0.9)。但是基于时序历史信息的内因预测逻辑并非是万能的,该方法逻辑对于剩余的监测参数预测准确率较低(R2<0.7)。
图1 基于内因的水处理系统参数预测结果
引入外因特征跳出了预测对象自身的限制,通过拟合特征参数与预测参数之间的关系,提高预测模型的准确度。但引入“外因”特征也将延伸出“选择哪些外部特征?”,“过多的特征是否会导致维度爆炸?”,“特征变化之后选择何种机器学习算法?”等一系列问题。
事实上,绝大多数数据驱动的建模流程链都是“数据处理 特征工程 算法选择 超参优化”,每个节点都存在多种方案值得探索。面对复杂建模问题,往往初始的数据建模方案并不能达到较好的结果,这时便需要用户尝试尽可能多的方案,选择效果尽可能好的模型。
这种海量的组合方案的尝试和探索工作需要很高的程序自动化水平,也是让普通用户望而生畏和“劝退”的原因所在。DTEmpower是天洑软件历经多年打磨,推出的一款简洁而严谨的通用数据建模软件,具有极高的自动化和智能化水平,哪怕是零编程基础、零算法基础的用户,也可以高效便捷地在短时间内零编码地探索大量不同的数据建模方案,寻找匹配实际问题场景的优秀模型。
本文便是针对水处理系统中入口流量、压差、浊度电导率等时序预测难度高的监测参数的预测问题,展示如何使用DTEmpower建模工具,高效便捷地寻找优秀数据模型的探索过程。
1. 数据集介绍
以某电厂水处理系统为例,对系统中三类过滤器(多介质过滤器、超滤装置和反渗透装置)的32个参数如入口流量、压差、浊度电导率进行t 12h(对12h之后的数据进行预测)的长窗预测。
本次实验选取2020-01-18 00:00:00 到2020-12-24 00:00:00共48960个连续时间点的数据作为本次实验的数据集,并以10min的采样间隔读取预测参数和特征参数数据。
图2 某电厂水处理系统
2. 基于内因 外因的样本集构造方法
以当前时刻为基准时刻t,取[t-2h,t](使用前2小时内的历史数据)区间内的预测参数和外部特征参数数据为样本输入,t 12h时间点的数据为样本输出以此构造单个完整样本;然后采用滑动时间窗口方法构造算法所需的样本集。样本集的构造方法如图3所示,该方法的输入数据含有预测参数的历史数据和外部特征参数,为基于内因 外因的样本集构造方法。
图3 基于内因 外因的样本集构造方法
整个水处理系统共有16台设备,180个监测参数,由于过多的特征不经过特征工程处理时会导致维度爆炸,本文选取了与预测参数同属一台设备的其他监测参数作为外部特征,比如当预测对象为反渗透一段入口流量时,选取反渗透一段压差和反渗透一段浓水流量作为外部特征。
3. 基于DTEmpower的数据建模和调试
使用基于内因 外因的样本集构造方法构建的数据集,基于DTEmpower平台 完成数据预处理、特征筛选、特征工程、模型训练和评估的数据建模流程。在特征变化之后应该选用何种机器学习算法进行训练呢?DTEmpower提供了多种回归算法供用户选择,并且每种算法都提供了超参优化功能。
本文使用其中的 GBDT(Gradient Boosting Decision Tree)、Bagging、随机森林(Random Forest, RF)和极端随机树(ExtraTrees)4种算法对反渗透一段入口流量进行预测,取4种算法中R2指标最高的模型。
图4 水处理系统参数预测建模流程
如图4所示,利用DTEmpower集成的数据预处理、模型训练和模型评估等模块,搭建了参数预测的模板流程。
通过复用该模板流程,可以加载基于内因的、基于内因和不同外因的多种数据集;通过调节模板流程中算法节点的参数,如异常点清理(AIOD,AIoutliers drop节点)、重要性阈值(MDI节点)、降维控件(PCA节点)可以为预测模型构建不同的特征,以此为探索不同的数据和特征提供功能强大、使用方便的实验平台。
结合DTEmpower的模型复用,对反渗透一段入口流量的试验过程和结果如图5所示,通过对不同外因的探索以及模板流程中算法节点参数的调试,可以将预测模型的R2指标从0.68提高到0.94。
图5 基于DTEmpower实现“层层递进式”的数据建模水平提升
图中两个外因分别指反渗透一段压差和反渗透一段浓水流量。
4. 实验结果和分析
① 针对水处理系统的参数预测模型,当基于内因的模型精度较低时,需要对数据和特征进行探索和尝试,引入预测参数以外的特征是一个值得尝试的方向。
② 通过合理地选择外部特征并引入MDI/PCA等特征工程技术,既可以提升输入信息富集度从而有助于提升模型预测精度,又可以缓解因输入特征过多导致的维度爆炸、模型难以训练的问题。
③以反渗透一段入口流量为例,通过引入不同的“内因 外因”特征,能将其预测模型的R2指标从0.68提高到0.94。
数据驱动的建模需要在数据处理、特征工程、算法选择和超参优化等几个节点进行大量的尝试和优化。海量组合方案的尝试和探索成为了绝大数工业应用迈向数据驱动、智能化的拦路虎!
DTEmpower致力于为工业数据研究者扫清各种陷阱、提供易用可信赖的技术支撑!平台提供了强大的数据挖掘、特征工程和模型自动学习等一站式的解决方案,可以帮助用户快速、便捷的构建精度较高的数据模型。为不同工业用户快速验证业务数据驱动方案,提供了一条高效可落地的实现路径。