首页/文章/ 详情

工业大数据需要体系化的方法论

4年前浏览2507

我一直在谈,做数据分析应该有些“原则”。如先奠定分析基础,人机结合、用简单方法做等。但更重要的是,这些原则的内涵是什么,如何落实?下面是几点简单的笔记,是个思考的“结构”。

    

数据分析的基础

 

我经常谈到,决定工业数据分析工作成败的客观条件是“数据质量”。只有客观条件合适时,算法才有价值;过去,“客观条件”不理想是一种常态。而工业大数据时代的本质优势是数据质量的提升。

 

那么,什么是数据质量?

 

美国专家曾经给出定义,数据质量好就是适合特定应用。那么,我们又要问一下:什么要“适合”呢?如何判定呢?这个问题很重要:收集工业大数据时,应该按照什么样的要求进行,才能满足后续分析过程的需要?

 

我想了一下,数据质量大概可以分成四个方面:

 

存在性,关键数据是存在的。

完整性,范围要覆盖足够大。

因果性,避免导致分析错误。

准确性,数据精度等。

 

其中,“因果性”是比较抽象的。我又想到用四个指标来框定它:

 

空间对应性:自变量和因变量的数值要对应好;

时间一致性:要用统一的时钟

频度合理性:“原因”的采样频度不能低于“结果”

数据正确性:数据不要出现系统性的错误。

 

现实中如何操作,才能满足以上要求?关键是要防止干扰和错误。对此,要从数据定义和数据采集两个方面入手。

 

数据定义关心的是类似、相关、公用数据的定义,避免用错数据。数据采集包括两个部分:状态数据和传感器数据。传感器数据的质量关注四个环节的干扰:

 

1、传感器特点、布置和维护活动

2、软测量或滤波等技术

3、过程干扰

4、传输问题

 

数据如何分析?

 

原则上讲,工业大数据分析要与专业人士结合、与领域知识结合、与管理相结合。

 

这话好说,怎么落实?具体地说:要与流程和标准结合。

 

流程就是说清楚是怎么做的、把过程定下来。标准就是对流程中的每一步用数字进行规范。数据分析、尤其是根因分析往往就是对比流程的标准;而优化,就是挑出一个好的做法;深度的优化和分析,则是给流程和标准挑毛病——但也是以流程和标准为基础的。这种做法当然是特别简单的。但是,如果数据足够多,就可以交给计算机去做;而交给计算机做,会有极大的意义。

 

所以,我主张的数据分析,都是围绕流程做的。为什么?因为流程和标准是人做的。结合流程做,就是利用人的长处;优化流程,就是寻找人的短处。两者都是围绕人。

 

数据分析与数据基础

 

数据分析的数据基础,是流程和标准决定的。这就是数据分析的边界。这个边界是人来定的。前面讲到的数据质量,也与此挂钩。

 

当然,数据和标准是可以优化的。但这个优化也应该基于人类的知识:要知道人类不确定的地方,有针对性的分析与优化。否则,同样会面临“大海捞针”的困难。

 

许多数据分析问题,涉及到成百上千的参数。如果设想着建立一个具有成千上万自变量的复杂函数,多数情况下是不靠谱的。如果想写论文,可以试试。如果是做实事,就不能依赖“大海捞针”的办法了。因为成功的概率太低。当然,可以先“捞捞试试”,万一捞到了呢?即便捞不到,也可以再结合前面谈到的分析方法,可能提高整体的工作效率。但迷恋和依赖这种方法,往往就不靠谱了。

 

---------------------------------------------------------------------------------------------

版权声明:

原创文章,作者郭朝晖,来源蝈蝈创新随笔,本文已经授权,欢迎分享,如需转载请联系作者。


云计算智慧+理论科普通用工厂
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2020-11-22
最近编辑:4年前
仿真圈
技术圈粉 知识付费 学习强国
获赞 10080粉丝 21540文章 3537课程 219
点赞
收藏
未登录
1条评论
DoubleZ
签名征集中
3年前
方**
回复
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈