我的文章或许没几个人能看懂,却是来自于亲身实践和思考的一手知识。
在我看来,质量管理的一个重要思想,是将产品设计、质量要求、设备状态、工艺控制等看成概率问题。在这个思想的指导下,标准的制定普遍增加了对公差的指标要求。这样,就把质量管理聚焦到对不确定因素的度量和控制。
这个思想还意味着:偏差或者缺陷率小到规定的范围之后,就不再去追去它的原因了。“不去追究原因”其实常常是不得已而为之。在数据不完整的前提下,很多问题的原因根本无法去追究。
在钢铁生产过程中,连铸坯的质量缺陷就是一个典型。连铸坯缺陷一直是个很难控制的问题。对于用户要求比较高的产品,常常要全面清理。这样的代价是很大的。我们当然希望只清理有缺陷的产品。但由于坯子的表面很粗糙,很多缺陷不能在线准确检测。
于是,人们希望能够根据板坯生产的工艺参数,准确预测缺陷的产生。但很多缺陷只能在最终产品上、甚至用户使用时才能发现。在这个过程中,有些中间环节可能会把缺陷消除掉、有些虽然坯子有缺陷但在产品上显现不出来或者用户基本不在乎。而且,缺陷位置和当时的生产参数、设备状态也难以准确对应。这些都让我们无法将工艺参数和缺陷的产生对应起来。
这种现象的本质是:信息不足导致不确定性。信息不足的不确定性,导致分析结果的不确定性。分析结果的不确定性大到一定程度,分析结果根本无法用来创造价值。设想一种典型的情况:
某钢种缺陷发生率5%。我们把能拿到的数据都来建模。最终发现:在某种最严重的条件下,缺陷发生率8%;在最好的情况下,缺陷发生率3%。这就是一个无用的结果:对于质量要求高的产品,不论缺陷率8%还是3%,都要进行清理;对质量要求低的产品,不论8%还是3%,都不需要清理。
很多没有搞过数据分析的人,总希望模型精度非常高。但是,建模所依据的数据不完整、质量不高,就不可能得到高精度的预报结果——因为任何算法都不能让原始数据的信息量增加。极端的情况是:生产过程没有任何的检测和数据记录,数据分析能力再强也没有办法建立出理想的数学模型。还有一种特殊情况,数据基本完备但精度不够。这时,即便是完全正确的模型也只能预报一个概率分布——这个观念我强调了很多年,但真正能理解的人极少。
现在回到本文的开头:应该怎样建设工业大数据的基础。本人认为,理想的工业大数据就是针对特定问题(如板坯的质量缺陷),建立“全息”的数据映像。这时,根据已有的数据,是否发生特定问题是个确定性的。这或许是个永远都无法实现的理想,却是我们追求的方向。