工业大数据大赛的奖项公布之前,主办方让我说几句话。我说:做为连续四届的评委,很荣幸地看到竞赛的进步。尤其是看到了几个特别令人振奋的项目,让我毫不犹豫地给出了98分。对我来说,给出这么高的分数,是非常罕见的。
但是,我还是想提醒大家注意一个问题:为什么评委的主观分和模型的客观分有时会出现不一致——虽然评委的评价相对一致。这是因为:工业和学术是有差别的。
评价模型的时候,学术界关心的是模型的精度。但工业界却不仅仅关注模型的精度,而是更重视可靠性。事实上,“精度”仅仅是针对测试**的。针对测试集的精度高并不意味着真正好用。因为测试是有运气的,尤其是对不确定性大的问题。
可靠与高精度是两回事。当自变量存在显著误差时,追求高精度反而会有损于可靠性。这一点,是可以用数学来证明的。让模型可靠的办法之一,是深入理解对象和数据,让机理和可理解的经验知识来保证。
通过理解对象和数据,我们可以知道如何选择数据、如何分场景建模、如何确定模型和变量的适用范围、帮助我们识别假象并利用机理模型,甚至可以根据机理构造特征变量等。如果模型和特征选择等过程是可理解的,可靠性就会显著增加——因为人们依靠的是数据之外的科学和经验知识。
我们可以用数据来理解科学原理,也可以用科学原理来理解数据。把数据纳入模型之前,应该仔细分析一下数据的特征:波动情况如何、分布情况如何、与其他的变量关系如何等。这些分析过程,有利于我们对数据有更加深刻的理解。
作为一个长期在工业界工作的评委,对于那些能够把变量选择、分析、建模过程说得清楚的团队,自然就会给予高分。事实上,如果我是甲方,也只会选择这样的模型。
也有些团队,拿到数据之后,就急于测试各种复杂的算法。目的只是找出精度高的那个。在这个分析过程中,缺乏对对象和数据本身的分析。这样做,就很容易陷入“唯精度”的误区、让模型失去可理解性,好看却不中用。
所以,我的建议是:如果大家有志于建立实用的模型,首先要花较多的时间,把对象和数据分析清楚,而不是急着去搞算法。重要的话说三遍:不要急着搞算法、不要急着搞算法、不要急着搞算法。
---------------------------------------------------------------------------------------------
版权声明:
原创文章,作者郭朝晖,来源蝈蝈创新随笔,本文已经授权,欢迎分享,如需转载请联系作者。