首页/文章/ 详情

今天作的学术报告

1年前浏览171

在今天中国计算学会的一次学术会上,我讲了“工业大数据建模的可靠性与实用性”,把几十年的实践和认识串了一下。

在这个报告中,有些PPT可以追溯到20多年前,有些是会议开始后才改写的。我用这些多年沉淀的“老”元素,串起了新的逻辑。

我在报告中指出:实用化的模型需要关注如下三点:

1、模型的程度(精度);

2、适用的范围(精度有效的范围);

3、模型的精度和适用范围可知、稳定

要防止三类不稳定性问题:

1、工况正常稳定时,精度是高的;工况异常时,精度无法保证。

2、过去、现在的精度是高的,明天就可能低了。

3、不知道什么时候精度高、什么时候精度低。

总之一句话:稳定可靠的模型才实用。但稳定可靠不容易、甚至可以说是最难的。单纯追求高精度,往往得不到稳定的模型。

思考的逻辑起始点是:我们进行数据建模,并不是因为没有“机理模型”,而是“机理模型”缺乏必要的参数而算不准。于是,下一个问题就是:算不准怎么办?最基本的办法就是把实践的结果记下来,形成经验和标准,供下次使用。

既然有了标准,为什么还要有模型? 一个重要的原因,是为了“适应变化”。工业对象的参数是会漂移的,模型的作用是适应这种变化。

模型是如何适应变化的呢?有个最简单的办法,就是和人的做法一样:把实践过程记录下来,下次跟着学。注意:这样的“模型”与软件结合的时候,其实是“变化的标准”、“动态的标准”。在我看来,工业中所谓的“机器学习”,本质其实就是把过去的成功做法“记下来”。这种逻辑,类似传统的近邻算法、CBR算法。但是,只有在大数据时代,才能找到比较近似的学习对象。大数据的意义,就在于此:方法一样,条件不同了,成功率不一样了。

“世界上没有完全相同的两片叶子”。

直接学到的东西,往往有比较大的误差。这个时候怎么办?这个时候的办法,就是在“跟着学”的基础上根据实际的差距做调整。所以,模型其实包括两个部分:1、跟着过去成功的学、2、针对差异进行调整。这就是我常说的“高尔夫球”做法。这样的做法,在钢铁行业并不罕见。这样的逻辑,往往能充分利用领域知识。

这种算法 会遇到两个问题:首先是“跟着谁学”。如果算法不好,会“跟错人”,模型就不稳定。大数据时代,数据完整性比较好,可以通过多特征的方法防止“跟错人”。其次是如何调整的问题。这个时候,要知道“什么变化了”、在此基础上做调整。但是,“什么变化了”可能测量不到,需要用间接的手段获取。这其实是一种“子模型”。现实中的模型往往要具有这种“子模型”。这也使得数据建模得到的模型,与机理模型不一致。

除此之外,对象本身的参数会发生变化,进而导致模型本体的参数发生变化。这个时候,需要另外一种机器学习:让模型的精度适应对象的变化。这是两种比较实用的机器学习。都是“有限责任”的机器学习。我一直认为:机器学习承担的责任过大,会影响模型的可靠性。

写到这里,就容易理解J.BOX的名言:“模型都是错的,但有些是有用的”。我们必须接纳那些“错误”的模型,来获得“有用”性。但这些“错误”往往是可理解的。

在报告中,我再次提到一个观点:实践经验告诉我们,模型误差大的时候,首先应该关注数据的质量,其次才是在算法中寻找问题(多数人的做法 正好相反)。我认为,针对生产对象时,模型精度不高,90%是数据质量不高导致的,算法能够起到的作用往往有限。当然,这个观点与模型的应用场景有关。

所以,企业的管理和大数据工作,要以提高数据质量为核心。从某种意义上讲,管理好的企业才能用好模型。讲工业大数据时,很多人总是强调数据量大。在我看来,数据量大本身并没有多大作用,但数据量大为提高数据质量奠定了基础,从而为模型的实用化奠定了基础。

最后,我还谈到了软件开发过程中的可靠性问题。

这样,以“可靠性、实用性”为核心,把几十年的认识串起来了。这里没有讲“第四范式”:这种事情能做,但太难了,一般人做不了。


来源:蝈蝈创新随笔
通用科普
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-07-23
最近编辑:1年前
蝈蝈创新随笔
只是把思考的日志搬运,不当之处...
获赞 93粉丝 15文章 1159课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈