我一直在谈,做数据分析应该有些“原则”。如先奠定分析基础,人机结合、用简单方法做等。但更重要的是,这些原则的内涵是什么,如何落实?下面是几点简单的笔记,是个思考的“结构”。
数据分析的基础
我经常谈到,决定工业数据分析工作成败的客观条件是“数据质量”。只有客观条件合适时,算法才有价值;过去,“客观条件”不理想是一种常态。而工业大数据时代的本质优势是数据质量的提升。
那么,什么是数据质量?
美国专家曾经给出定义,数据质量好就是适合特定应用。那么,我们又要问一下:什么要“适合”呢?如何判定呢?这个问题很重要:收集工业大数据时,应该按照什么样的要求进行,才能满足后续分析过程的需要?
我想了一下,数据质量大概可以分成四个方面:
存在性,关键数据是存在的。
完整性,范围要覆盖足够大。
因果性,避免导致分析错误。
准确性,数据精度等。
其中,“因果性”是比较抽象的。我又想到用四个指标来框定它:
空间对应性:自变量和因变量的数值要对应好;
时间一致性:要用统一的时钟
频度合理性:“原因”的采样频度不能低于“结果”
数据正确性:数据不要出现系统性的错误。
现实中如何操作,才能满足以上要求?关键是要防止干扰和错误。对此,要从数据定义和数据采集两个方面入手。
数据定义关心的是类似、相关、公用数据的定义,避免用错数据。数据采集包括两个部分:状态数据和传感器数据。传感器数据的质量关注四个环节的干扰:
1、传感器特点、布置和维护活动
2、软测量或滤波等技术
3、过程干扰
4、传输问题
数据如何分析?
原则上讲,工业大数据分析要与专业人士结合、与领域知识结合、与管理相结合。
这话好说,怎么落实?具体地说:要与流程和标准结合。
流程就是说清楚是怎么做的、把过程定下来。标准就是对流程中的每一步用数字进行规范。数据分析、尤其是根因分析往往就是对比流程的标准;而优化,就是挑出一个好的做法;深度的优化和分析,则是给流程和标准挑毛病——但也是以流程和标准为基础的。这种做法当然是特别简单的。但是,如果数据足够多,就可以交给计算机去做;而交给计算机做,会有极大的意义。
所以,我主张的数据分析,都是围绕流程做的。为什么?因为流程和标准是人做的。结合流程做,就是利用人的长处;优化流程,就是寻找人的短处。两者都是围绕人。
数据分析与数据基础
数据分析的数据基础,是流程和标准决定的。这就是数据分析的边界。这个边界是人来定的。前面讲到的数据质量,也与此挂钩。
当然,数据和标准是可以优化的。但这个优化也应该基于人类的知识:要知道人类不确定的地方,有针对性的分析与优化。否则,同样会面临“大海捞针”的困难。
许多数据分析问题,涉及到成百上千的参数。如果设想着建立一个具有成千上万自变量的复杂函数,多数情况下是不靠谱的。如果想写论文,可以试试。如果是做实事,就不能依赖“大海捞针”的办法了。因为成功的概率太低。当然,可以先“捞捞试试”,万一捞到了呢?即便捞不到,也可以再结合前面谈到的分析方法,可能提高整体的工作效率。但迷恋和依赖这种方法,往往就不靠谱了。
---------------------------------------------------------------------------------------------
版权声明:
原创文章,作者郭朝晖,来源蝈蝈创新随笔,本文已经授权,欢迎分享,如需转载请联系作者。