在工业大数据大赛上的发言

4年前浏览1553

工业大数据大赛的奖项公布之前，主办方让我说几句话。我说：做为连续四届的评委，很荣幸地看到竞赛的进步。尤其是看到了几个特别令人振奋的项目，让我毫不犹豫地给出了98分。对我来说，给出这么高的分数，是非常罕见的。

但是，我还是想提醒大家注意一个问题：为什么评委的主观分和模型的客观分有时会出现不一致——虽然评委的评价相对一致。这是因为：工业和学术是有差别的。

评价模型的时候，学术界关心的是模型的精度。但工业界却不仅仅关注模型的精度，而是更重视可靠性。事实上，“精度”仅仅是针对测试**的。针对测试集的精度高并不意味着真正好用。因为测试是有运气的，尤其是对不确定性大的问题。

可靠与高精度是两回事。当自变量存在显著误差时，追求高精度反而会有损于可靠性。这一点，是可以用数学来证明的。让模型可靠的办法之一，是深入理解对象和数据，让机理和可理解的经验知识来保证。

通过理解对象和数据，我们可以知道如何选择数据、如何分场景建模、如何确定模型和变量的适用范围、帮助我们识别假象并利用机理模型，甚至可以根据机理构造特征变量等。如果模型和特征选择等过程是可理解的，可靠性就会显著增加——因为人们依靠的是数据之外的科学和经验知识。

我们可以用数据来理解科学原理，也可以用科学原理来理解数据。把数据纳入模型之前，应该仔细分析一下数据的特征：波动情况如何、分布情况如何、与其他的变量关系如何等。这些分析过程，有利于我们对数据有更加深刻的理解。

作为一个长期在工业界工作的评委，对于那些能够把变量选择、分析、建模过程说得清楚的团队，自然就会给予高分。事实上，如果我是甲方，也只会选择这样的模型。

也有些团队，拿到数据之后，就急于测试各种复杂的算法。目的只是找出精度高的那个。在这个分析过程中，缺乏对对象和数据本身的分析。这样做，就很容易陷入“唯精度”的误区、让模型失去可理解性，好看却不中用。

所以，我的建议是：如果大家有志于建立实用的模型，首先要花较多的时间，把对象和数据分析清楚，而不是急着去搞算法。重要的话说三遍：不要急着搞算法、不要急着搞算法、不要急着搞算法。

---------------------------------------------------------------------------------------------

原创文章，作者郭朝晖，来源蝈蝈创新随笔，本文已经授权，欢迎分享，如需转载请联系作者。

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2020-11-29