首页/文章/ 详情

工业大数据需要体系化的方法论

仿真圈

3年前浏览2455

我一直在谈，做数据分析应该有些“原则”。如先奠定分析基础，人机结合、用简单方法做等。但更重要的是，这些原则的内涵是什么，如何落实？下面是几点简单的笔记，是个思考的“结构”。

数据分析的基础

我经常谈到，决定工业数据分析工作成败的客观条件是“数据质量”。只有客观条件合适时，算法才有价值；过去，“客观条件”不理想是一种常态。而工业大数据时代的本质优势是数据质量的提升。

那么，什么是数据质量？

美国专家曾经给出定义，数据质量好就是适合特定应用。那么，我们又要问一下：什么要“适合”呢？如何判定呢？这个问题很重要：收集工业大数据时，应该按照什么样的要求进行，才能满足后续分析过程的需要？

我想了一下，数据质量大概可以分成四个方面：

存在性，关键数据是存在的。

完整性，范围要覆盖足够大。

因果性，避免导致分析错误。

准确性，数据精度等。

其中，“因果性”是比较抽象的。我又想到用四个指标来框定它：

空间对应性：自变量和因变量的数值要对应好；

时间一致性：要用统一的时钟

频度合理性：“原因”的采样频度不能低于“结果”

数据正确性：数据不要出现系统性的错误。

现实中如何操作，才能满足以上要求？关键是要防止干扰和错误。对此，要从数据定义和数据采集两个方面入手。

数据定义关心的是类似、相关、公用数据的定义，避免用错数据。数据采集包括两个部分：状态数据和传感器数据。传感器数据的质量关注四个环节的干扰：

1、传感器特点、布置和维护活动

2、软测量或滤波等技术

3、过程干扰

4、传输问题

数据如何分析？

原则上讲，工业大数据分析要与专业人士结合、与领域知识结合、与管理相结合。

这话好说，怎么落实？具体地说：要与流程和标准结合。

流程就是说清楚是怎么做的、把过程定下来。标准就是对流程中的每一步用数字进行规范。数据分析、尤其是根因分析往往就是对比流程的标准；而优化，就是挑出一个好的做法；深度的优化和分析，则是给流程和标准挑毛病——但也是以流程和标准为基础的。这种做法当然是特别简单的。但是，如果数据足够多，就可以交给计算机去做；而交给计算机做，会有极大的意义。

所以，我主张的数据分析，都是围绕流程做的。为什么？因为流程和标准是人做的。结合流程做，就是利用人的长处；优化流程，就是寻找人的短处。两者都是围绕人。

数据分析与数据基础

数据分析的数据基础，是流程和标准决定的。这就是数据分析的边界。这个边界是人来定的。前面讲到的数据质量，也与此挂钩。

当然，数据和标准是可以优化的。但这个优化也应该基于人类的知识：要知道人类不确定的地方，有针对性的分析与优化。否则，同样会面临“大海捞针”的困难。

许多数据分析问题，涉及到成百上千的参数。如果设想着建立一个具有成千上万自变量的复杂函数，多数情况下是不靠谱的。如果想写论文，可以试试。如果是做实事，就不能依赖“大海捞针”的办法了。因为成功的概率太低。当然，可以先“捞捞试试”，万一捞到了呢？即便捞不到，也可以再结合前面谈到的分析方法，可能提高整体的工作效率。但迷恋和依赖这种方法，往往就不靠谱了。

---------------------------------------------------------------------------------------------

原创文章，作者郭朝晖，来源蝈蝈创新随笔，本文已经授权，欢迎分享，如需转载请联系作者。

云计算智慧+理论科普通用工厂

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2020-11-22