首页/文章/ 详情

我的工业大数据课

1年前浏览121

最近,有位老师邀请我给研究生讲讲工业大数据,我想针对数据建模和根因分析谈谈自己的想法。我从90年代初读研究生开始,从事工业数据建模、优化等工作已经三十多年了,经过十多年探索才逐渐摸到一点门道。我既不想看到一些不切实际的观点流行,也不想把这么多年的想法烂在肚子里。

 

很久之前就想总结一下,但一直不理想,想法多但碎片化。过去有人请我讲的时候,我尽量避开或者淡化。最近封控在家,正好有时间。就整理了一下,写成了100多页PPT,分成七个部分。

 

一、从知识谈起:建模与根因分析

 

在我看来,建模和根因分析都是从数据中获得知识。但工业场景应用有几个特点:对数据工作的要求高、专业知识相对丰富。具体地说,要求精度高、适用范围大、精度和适用范围稳定可靠。一般要避免三种情况: 1、工况正常稳定时精度高,工况异常时精度低。2、精度随着时间漂移。3、不知道什么场景下精度高、什么场景精度低。这几个要求其实不容易做到。要做到这几点,关键是要把领域知识用好。

 

二、从现象谈起:人为什么会犯错?

 

工业企业对知识的要求高,就要避免建模和分析时犯错。但人为什么会犯错呢?我列举了导致犯错的一些原因:数据的真实性、数据的精度、数据来源、数据完整性问题等等。从统计系学术的角度看,可以归结为:概率统计理论的前提不存在了。

 

三、从数据谈起:如何避免犯错

 

这一部分是针对上一部分的解决方法。用我经历过的几个例子,还用了武汉疫情爆发之初的故事,分析如何正确地认识数据,避免被数据误导。

 

四、从相关开始:数据分析的方法

 

人们对工业知识的可靠性要求很高,往往需要因果关系。但不幸的是:做数据分析的时候,往往只能从相关关系入手。但相关分析中有许多陷阱,容易把人带入误区。这一节介绍如何尽量避开相关分析中陷阱。

 

五、从哲学谈起:结论如何验证

 

工业企业对数据分析的可靠性要求特别高。而传统统计学的前提(先验知识)往往又是不成立的。所以,确认模型或知识的正确性、科学性,往往是个令人头疼的问题。在这一部分中,我用一个例子,介绍了30年来攒的一些土办法。这些办法其实都很基本,所以要从认识论的“哲学谈起”。

 

六、实际的模型:可能并不“科学”

 

“模型都是错的,但有些是有用的”。从机理上看,工业中的许多实用模型在理论上是“错的”,但确实是有用的:只要精度足够高、适用范围明确就行了。我在宝钢见到的许多模型都是这个样子的。我还发现:这些模型是有共性的,与实践经验非常相似。

 

七、大数据时代:经济性的视角

 

由于对精度和可靠性要求高,工业大数据分析和建模,可能是耗时很长、成功率很低的工作。要提高这些工作的经济性,必须充分利用人的知识,提高工作效率和成功率。


这个课的专业性相对较强,一般只能给专业人士上。

来源:蝈蝈创新随笔
理论
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-07-23
最近编辑:1年前
蝈蝈创新随笔
只是把思考的日志搬运,不当之处...
获赞 93粉丝 15文章 1159课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈