数据分析与人机协作

3年前浏览2249

我讲工业大数据的时候，以“获取知识”为线索展开谈到两个内容：数据分析与数据建模。但总是感觉衔接不好：两者到底是什么关系啊？

最近我突然意识到：我讲的数据分析主要是人的工作，而数据建模已经可以与机器学习结合了。机器和人都有能力获得知识。但人获得知识的过程往往不确定性很高，重点做些定性的分析；而机器学习的不确定性较低，重点在定量。

定性的问题往往更开放：人类也不清楚到底哪些变量是关键要素，需要进行筛选。筛选的第一步往往是看相关性的大小，但数据分析往往需要因果关系。我们需要判断数据呈现的特定相关关系是不是因果关系。现实中，这样的判断往往不是特别容易：要判断某个相关性不具有因果关系时，往往需要解释这种相关性是如何产生的。而仅用工业现场的数据往往是无法回答这个问题的。人们判断的依据，是脑子里的专业知识。必要时要参考一些文献、甚至做一些实验，也就是要有意识地补充数据和知识。这些都是需要人参与的。这也是阿尔法狗的机器学习没有办法用在工业上的原因。

另外，数据分析中的困难，往往与数据质量有关。

胡首席是我的老同事。我曾经给他一个模型，预报带钢的强度。我的预报结果大约是200MPa, 测量结果却是400MPa。胡首席说：肯定是你们的成分高错了。但测量之后，成分却是对的。于是，胡首席亲自测一下成分。发现试样是个混钢水的“夹心面包”：中间是外表是200MPa的软钢，内部是600MPa的硬钢。成分是按照表面的软钢给的，故而出现了这种事情。

笔者发现：困难的数据分析问题，往往是数据中出现了问题。算法往往依赖于数据，而数据本身是不是靠谱的，却要人来判断。所以，这个过程也需要人深度参与。

凡是需要人深度参与的分析，往往都需要花很多的时间，人才的培养也非常不容易。十多年前，我就像建立一套能够深度帮助人们进行数据分析的软件，可惜精力有限、实践有限，最终不了了之了。

人类和计算机都能“发现知识”，但两者的内涵却往往是不同的。人类更擅长把握定性的知识，而机器善于量化。形象地说，许多数据工作的特点是：“人类先画一个圈，机器在圈里优化”。我讲的数据分析，重在“画圈”；而我讲的数据建模，重在“优化”。所谓“数字化转型是用人明白的道理，让机器做得更好”，往往就是用人能理解的定性知识，发挥计算机定量、快速、少错的优势。

原创文章，作者郭朝晖，来源蝈蝈创新随笔，本文已经授权，欢迎分享，如需转载请联系作者。

智慧+数字孪生理论科普人工智能其他软件

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2021-05-12