最近,有位老师邀请我给研究生讲讲工业大数据,我想针对数据建模和根因分析谈谈自己的想法。我从90年代初读研究生开始,从事工业数据建模、优化等工作已经三十多年了,经过十多年探索才逐渐摸到一点门道。我既不想看到一些不切实际的观点流行,也不想把这么多年的想法烂在肚子里。
很久之前就想总结一下,但一直不理想,想法多但碎片化。过去有人请我讲的时候,我尽量避开或者淡化。最近封控在家,正好有时间。就整理了一下,写成了100多页PPT,分成七个部分。
一、从知识谈起:建模与根因分析
在我看来,建模和根因分析都是从数据中获得知识。但工业场景应用有几个特点:对数据工作的要求高、专业知识相对丰富。具体地说,要求精度高、适用范围大、精度和适用范围稳定可靠。一般要避免三种情况: 1、工况正常稳定时精度高,工况异常时精度低。2、精度随着时间漂移。3、不知道什么场景下精度高、什么场景精度低。这几个要求其实不容易做到。要做到这几点,关键是要把领域知识用好。
二、从现象谈起:人为什么会犯错?
工业企业对知识的要求高,就要避免建模和分析时犯错。但人为什么会犯错呢?我列举了导致犯错的一些原因:数据的真实性、数据的精度、数据来源、数据完整性问题等等。从统计系学术的角度看,可以归结为:概率统计理论的前提不存在了。
三、从数据谈起:如何避免犯错
这一部分是针对上一部分的解决方法。用我经历过的几个例子,还用了武汉疫情爆发之初的故事,分析如何正确地认识数据,避免被数据误导。
四、从相关开始:数据分析的方法
人们对工业知识的可靠性要求很高,往往需要因果关系。但不幸的是:做数据分析的时候,往往只能从相关关系入手。但相关分析中有许多陷阱,容易把人带入误区。这一节介绍如何尽量避开相关分析中陷阱。
五、从哲学谈起:结论如何验证
工业企业对数据分析的可靠性要求特别高。而传统统计学的前提(先验知识)往往又是不成立的。所以,确认模型或知识的正确性、科学性,往往是个令人头疼的问题。在这一部分中,我用一个例子,介绍了30年来攒的一些土办法。这些办法其实都很基本,所以要从认识论的“哲学谈起”。
六、实际的模型:可能并不“科学”
“模型都是错的,但有些是有用的”。从机理上看,工业中的许多实用模型在理论上是“错的”,但确实是有用的:只要精度足够高、适用范围明确就行了。我在宝钢见到的许多模型都是这个样子的。我还发现:这些模型是有共性的,与实践经验非常相似。
七、大数据时代:经济性的视角
由于对精度和可靠性要求高,工业大数据分析和建模,可能是耗时很长、成功率很低的工作。要提高这些工作的经济性,必须充分利用人的知识,提高工作效率和成功率。
这个课的专业性相对较强,一般只能给专业人士上。