基于DTEmpower的水处理系统参数预测 - 内因篇

2年前浏览2816

一、摘要

污水处理系统的参数预测对于提前识别水处理设备污水净化能力的变化具有重要意义，而受水处理系统非线性、复杂性等因素的影响，其参数预测多采用基于数据驱动的时间序列长窗预测方法。若样本集的输入数据中仅由预测参数的历史数据组成，将其称为基于内因的参数预测方法；如果输入数据除预测参数历史数据外还有其他特征参数，则将其称为基于内因外因的参数预测方法。本文使用DTEmpower数据建模平台进行水处理过程的参数预测，发现基于内因的方法可以实现部分参数较高准确率的预测，R2指标值在0.90左右，但这种基于内因的方法存在一定局限性。

二、概述

污水处理过程不仅涉及一系列复杂的物理和化学过程，还需要多个机械化设备、电子设备和测量仪表等仪器相互配合，是一个复杂的工业系统。而污水处理系统的参数预测对于提前识别水处理系统的运行状态、提前识别水处理设备污水净化能力的变化及其故障诊断具有重要的现实意义。

水处理系统参数预测属于时序数据预测的范畴，预测方法可以分为线性时序统计、非线性时序统计和外因统计回归。线性时序统计方法主要用于拟合时间序列中的线性模型，无法拟合时间序列中的其他复杂模式（非线性/外部特征）；非线性时序统计方法要用于拟合时间序列中的非线性关系。

污水处理过程是一个外界干扰强烈、时变性强、耦合性强、非线性的复杂动态生物化学过程，难以对其建立精确的数学模型。而数据驱动的模型建立在大量测量数据的基础上，这对机理复杂、数据充分的污水处理系统是非常适合的，因此其过程参数预测多采用非线性时序统计方法中的非参数自回归方法（Nonparametric Auto Regressive, NAR）。该方法通过某种非线性回归模型，如SVR、KNN、GBDT等，使用对时刻的观测值进行预测。此外由于水处理过程参数种类繁多，变化规律复杂，需要结合数据清洗、特征选择、数据降维等算法预测模型，以此保证参数预测的精度。

三、DTEmpower简介

基于企业对工业数据分析与建模需求，天洑软件自主研发了一套零编码、算法齐全、通用的智能化数据建模平台DTEmpower 。

在DTEmpower 中，所有的数据及模型操作均以工具箱中模块的形式提供，用户无需具备编码能力，通过简单的控件拖拽即可搭建复杂的数据建模流程。目前DTEmpower围绕数据清理、特征选择、数据降维、模型训练和模型评估等数据建模的各个环节，以控件的形式提供了8类共100 种算法。面向多类的数据分析场景，DTEmpower利用智能调度引擎和超参优化等技术，实现了自动的模型优化功能。

四、基于DTEmpower的水处理系统参数预测实验

1. 数据集介绍

以某电厂水处理系统为例，对系统中三类过滤器（多介质过滤器、超滤装置和反渗透装置）的32个参数如入口流量、压差、浊度电导率进行t 12h的长窗预测（对12h之后的数据进行预测）。本次实验选取2020-01-18 00:00:00 到2020-12-24 00:00:00共48960个连续时间点的数据作为本次实验的数据集，并以10min的采样间隔读取预测参数和特征参数数据。

2. 基于内因的参数预测样本集构造方法

以当前时刻为基准时刻t，取[t-2h,t]（使用前2小时内的历史数据）区间内的预测参数数据为样本输入，t 12h时间点的数据为样本输出以此构造单个完整样本；然后采用滑动时间窗口方法构造算法所需的样本集。样本集的构造方法如图1所示，该方法的输入数据仅含有预测参数的历史数据，为基于内因的样本集构造方法。

图1 样本集构造方法.png

图1 样本集构造方法

3. 基于DTEmpower的数据建模流程

使用基于内因的样本集构造方法构建的数据集，基于DTEmpower平台完成数据预处理、特征筛选、特征工程、模型训练和评估的数据建模流程。本次水处理系统参数预测的建模流程如图2所示。

图2 水处理系统参数预测建模流程.png

图2 水处理系统参数预测建模流程

图2中建模流程的说明如下：

① 读取用户上传的数据集。

② 删除数据集中存在的空值。

③ 选择模型的输入数据和输出数据。

④ 对数据集中的异常点进行清理。图2中的AIOD是天洑软件自研的智能数据清理算法的调度策略，具有强大的默认设置和自适应性，可以满足绝大多数异常点识别场景。用户可以根据AIOD生成的_risk_score_自主选择需要删除的异常点。

图3 AIOD-一键式的智能数据清理.png

图3 AIOD-一键式的智能数据清理

⑤ 将输入数据中的冗余特征剔除。图2中的MDI控件可以计算输入特征的重要性数值，通过设定重要性阈值即可完成特征筛选的工作。

图4 MDI-重要性分析.png

图4 MDI-重要性分析

⑥ 将输入数据进行降维。数据降维节点提供了线性降维算法PCA和非线性降维算法isomap等15种降维算法。

⑦ 划分模型的测试集和训练集。

⑧ 使用不同算法对训练集进行训练。本次实验使用了 GBDT（Gradient Boosting Decision Tree）、Bagging、随机森林（Random Forest, RF）和极端随机树（ExtraTrees）4种非线性回归算法。

⑨ 使用测试集对模型进行评估和对比。图2中的模型对比控件可以得到不同模型的预测指标，如R2、RMSE、MAPE等，并提供了模型下载和保存和数据可视化功能。

图5 真实值和预测值的误差对比.png

图5 真实值和预测值的对比

4. 实验结果和分析

通过以上模型对累计流量、浊度、压差等6个参数变量进行t 12h的长窗预测，实验结果如表1所示。表中定性精度用来表示任意两个预测值的大小关系与对应的实际值大小关系一致的概率。

表1 参数预测实验结果

通过表1可以发现：

A. 基于内因的参数预测方法可以对多介质过滤器累计流量、多介质入口母管浊度和超滤压差进行较准确的预测，R2准确率均超过了0.90；

B. 基于内因的参数预测方法对反渗透出口电导率和超滤出口浊度预测的R2准确率不足0.70，需要对样本集或数据集进行其他方面的探索和尝试。

五、总结

通过机器学习的方法可以有效的对水处理系统的部分参数进行长窗预测，DTEmpower软件平台提供了数据建模流程中特征提取、特征选择和模型训练一站式的解决方案，为客户提供了使用简单、功能强大的实验平台。

数字孪生人工智能参数优化通用其他软件

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2022-01-07