概述
“DTEmpower核心功能技术揭秘”系列文章分享了天洑软件多年来工业数据实战所遇到的难题挑战和针对性的技术解决方案,如HierarchicalStratify分层分类技术、AIOD智能异常点检测技术和HDDV高维数据可视化技术。
图1 MDI(Mean Decrease in Inpurity)属于嵌入类方法,适用于大规模数据集,MDA(Mean Decrease in Accuracy)属于包装类方法,计算成本稍高但可以找到性能优秀的特征子集。重要性评分结果以水平柱状图的形式显示每个的重要性,用户可以自由设置重要性阈值进行特征子集截取
基于DTEmpower的MDI/MDA特征选择实战
1. 电厂水处理系统参数预测(MDI)
① 数据集介绍:来源于某电厂污水处理系统的流量、压差、浊度等时序数据,含有50 特征变量,共21000个样本,目标是预测水处理设备未来一段时间内的出口浊度。
② 建模和实验方法:采用图2所示的建模流程,选取MDI节点作为特征选择工具,并使用ExtraTrees极限随机树算法用以训练出口浊度预测模型。
③ 实验分析:考察不同的MDI重要性阈值截断选择对于建模的影响,设定不同的MDI重要性阈值,选取模型的R2和MAPE指标观测模型效果。每组MDI阈值参数做20次独立重复计算,取指标统计值得到分析图3。实验结果表明,随着无用特征的不断剔除,模型精度在不断提高。
图3 设备出口浊度预测模型的精度指标随MDI阈值的变化趋势,当不进行特征选择(MDI重要性阈值为0)时,R2≈0.90,MAPE≈0.08;MDI重要性阈值设置为0.010时,剔除明显的无用特征,此时的模型精度显著提高,R2提高到0.92,MAPE下降至接近0.07;进一步增大MDI重要性阈值,模型精度也有了进一步的提高。但是当阈值设置过大时(本实验中设置为0.020),部分对预测结果有贡献的特征也会被剔除,这会导致模型精度下降
图4 DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程。MDA作为特征选择工具,能够剔除“无用特征”,为搭建高精度模型提供支持
图5 使用MDA功能模块计算出15个特征变量的重要性值并进行排序后的实验结果。可以看到:V14、V3、V4等特征的重要性较低;V12、V2等特征的重要性较高;V11、V10等处于中间水平,对于目标变量也有一定的“贡献度”
图6 随着MDA阈值的不断增加,4种模型的R2指标出现了明显的上升趋势。但是当阈值增大到一定程度时(实验中为0.0450),对目标变量有“贡献”的特征V11被删除,此时模型的精度开始下降
图7 4种模型的NRMSE指标随MDA阈值的变化趋势,结合图6可以看出:不断删除“无用特征”可以有效的帮助用户提升模型精度,降低模型的预测误差。但是当MDA阈值设置的过大时,“有用特征”也会被删除,建议用户此时应停止特征筛选
总结
数据和特征决定了模型的上限,因此,在进行具体的模型训练之前,进行精细化的特征工程是搭建高精度模型的必要条件。常用的诸如相关性、灰度矩阵分析法等手段存在一定的交互限制和使用门槛。
DTEmpower集成了低门槛的MDI/MDA特征重要性选择功能。通过实际工业场景中的应用案例和对比实验,证明了MDI/MDA功能模块能轻松、有效地辅助用户提前优秀的特征子集,和建模流程的无缝连接,可高效地辅助用户搭建高精度模型。