我的工业大数据课

1年前浏览121

最近，有位老师邀请我给研究生讲讲工业大数据，我想针对数据建模和根因分析谈谈自己的想法。我从90年代初读研究生开始，从事工业数据建模、优化等工作已经三十多年了，经过十多年探索才逐渐摸到一点门道。我既不想看到一些不切实际的观点流行，也不想把这么多年的想法烂在肚子里。

很久之前就想总结一下，但一直不理想，想法多但碎片化。过去有人请我讲的时候，我尽量避开或者淡化。最近封控在家，正好有时间。就整理了一下，写成了100多页PPT，分成七个部分。

一、从知识谈起：建模与根因分析

在我看来，建模和根因分析都是从数据中获得知识。但工业场景应用有几个特点：对数据工作的要求高、专业知识相对丰富。具体地说，要求精度高、适用范围大、精度和适用范围稳定可靠。一般要避免三种情况： 1、工况正常稳定时精度高，工况异常时精度低。2、精度随着时间漂移。3、不知道什么场景下精度高、什么场景精度低。这几个要求其实不容易做到。要做到这几点，关键是要把领域知识用好。

二、从现象谈起：人为什么会犯错？

工业企业对知识的要求高，就要避免建模和分析时犯错。但人为什么会犯错呢？我列举了导致犯错的一些原因：数据的真实性、数据的精度、数据来源、数据完整性问题等等。从统计系学术的角度看，可以归结为：概率统计理论的前提不存在了。

三、从数据谈起：如何避免犯错

这一部分是针对上一部分的解决方法。用我经历过的几个例子，还用了武汉疫情爆发之初的故事，分析如何正确地认识数据，避免被数据误导。

四、从相关开始：数据分析的方法

人们对工业知识的可靠性要求很高，往往需要因果关系。但不幸的是：做数据分析的时候，往往只能从相关关系入手。但相关分析中有许多陷阱，容易把人带入误区。这一节介绍如何尽量避开相关分析中陷阱。

五、从哲学谈起：结论如何验证

工业企业对数据分析的可靠性要求特别高。而传统统计学的前提（先验知识）往往又是不成立的。所以，确认模型或知识的正确性、科学性，往往是个令人头疼的问题。在这一部分中，我用一个例子，介绍了30年来攒的一些土办法。这些办法其实都很基本，所以要从认识论的“哲学谈起”。

六、实际的模型：可能并不“科学”

“模型都是错的，但有些是有用的”。从机理上看，工业中的许多实用模型在理论上是“错的”，但确实是有用的：只要精度足够高、适用范围明确就行了。我在宝钢见到的许多模型都是这个样子的。我还发现：这些模型是有共性的，与实践经验非常相似。

七、大数据时代：经济性的视角

由于对精度和可靠性要求高，工业大数据分析和建模，可能是耗时很长、成功率很低的工作。要提高这些工作的经济性，必须充分利用人的知识，提高工作效率和成功率。

这个课的专业性相对较强，一般只能给专业人士上。

来源：蝈蝈创新随笔

理论

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-07-23