我讲工业大数据的时候,以“获取知识”为线索展开谈到两个内容:数据分析与数据建模。但总是感觉衔接不好:两者到底是什么关系啊?
最近我突然意识到:我讲的数据分析主要是人的工作,而数据建模已经可以与机器学习结合了。机器和人都有能力获得知识。但人获得知识的过程往往不确定性很高,重点做些定性的分析;而机器学习的不确定性较低,重点在定量。
定性的问题往往更开放:人类也不清楚到底哪些变量是关键要素,需要进行筛选。筛选的第一步往往是看相关性的大小,但数据分析往往需要因果关系。我们需要判断数据呈现的特定相关关系是不是因果关系。现实中,这样的判断往往不是特别容易:要判断某个相关性不具有因果关系时,往往需要解释这种相关性是如何产生的。而仅用工业现场的数据往往是无法回答这个问题的。人们判断的依据,是脑子里的专业知识。必要时要参考一些文献、甚至做一些实验,也就是要有意识地补充数据和知识。这些都是需要人参与的。这也是阿尔法狗的机器学习没有办法用在工业上的原因。
另外,数据分析中的困难,往往与数据质量有关。
胡首席是我的老同事。我曾经给他一个模型,预报带钢的强度。我的预报结果大约是200MPa, 测量结果却是400MPa。胡首席说:肯定是你们的成分高错了。但测量之后,成分却是对的。于是,胡首席亲自测一下成分。发现试样是个混钢水的“夹心面包”:中间是外表是200MPa的软钢,内部是600MPa的硬钢。成分是按照表面的软钢给的,故而出现了这种事情。
笔者发现:困难的数据分析问题,往往是数据中出现了问题。算法往往依赖于数据,而数据本身是不是靠谱的,却要人来判断。所以,这个过程也需要人深度参与。
凡是需要人深度参与的分析,往往都需要花很多的时间,人才的培养也非常不容易。十多年前,我就像建立一套能够深度帮助人们进行数据分析的软件,可惜精力有限、实践有限,最终不了了之了。
人类和计算机都能“发现知识”,但两者的内涵却往往是不同的。人类更擅长把握定性的知识,而机器善于量化。形象地说,许多数据工作的特点是:“人类先画一个圈,机器在圈里优化”。我讲的数据分析,重在“画圈”;而我讲的数据建模,重在“优化”。所谓“数字化转型是用人明白的道理,让机器做得更好”,往往就是用人能理解的定性知识,发挥计算机定量、快速、少错的优势。
版权声明:
原创文章,作者郭朝晖,来源蝈蝈创新随笔,本文已经授权,欢迎分享,如需转载请联系作者。