数据很重要，但本质原因是什么？

1年前浏览681

做创新，为什么要认识问题的本质。我想，是想知道做什么是真正重要的，是为了避免走入歧途、陷入细枝末节。昨天，我在微信朋友圈中发了一段话，探讨数据和大数据的本质：“数据之所以重要，是因为它能被计算机处理；大数据之所以重要，是因为它便于提炼共性。”这段“废话”到底意味着什么呢？

我想从人类的理想谈起。自由是人类追求最终理想。所谓自由，前提是可以不做自己不喜欢的事。繁重的体力劳动、枯燥的脑力劳动都是人不愿意做的。所以，人类必须把这些工作交给机器去做，这就是自动化。

我们知道，重复性的工作，自动化可以做得很好。强调“重复性”其实是成本问题，重复的次数越多，成本越低。但“重复性”还有个前提，就是边界条件或环境相对稳定。如果外部环境不断变化，重复性的工作也很难做。传统的自动化也能在一定程度上应对变化，而智能化就是能应对更复杂的变化。例如，自动驾驶就是应对路况的各种变化。从这种意义上讲，智能化本质上是高级的自动化。只要应对变化，就要获得并处理这些时刻变化的信息。要实现自动化或智能化，关键就是信息的自动处理。

数字化为什么重要？因为数字化才能被计算机处理，才能摆脱人，才能实现自动化、智能化。

如何处理信息？这就需要知识。有了知识，我们才会知道信息意味着什么。比如，红灯意味着需要停车。

要实现自动化，知识必须让计算机处理。传统的做法，是用编程序的办法，把知识变成程序代码。

然而，人的很多知识自己都说不清楚。比如，开车的都有一条知识：“看到老年人过马路要慢一点”。那么，多远开始减速？慢到什么程度，如何识别老人？如何判断老人想过马路？对待不同年龄的老人有什么不同？.... 把这些知识用代码编出来就太难了。而且，我们甚至不知道机器应该知道多少类似的知识，才能实现自动驾驶。由此可见，智能化并不容易。这个困难一直困惑着我们。

知识的表达成为关键困难时，人们想到的办法就是让机器自己去学习。学习就是获取知识。

那么，知识是什么？知识是一种关联信息的关联：一种信息告诉我们发生了什么，另外一种信息告诉我们会发生什么。现实中，两类关联可能不是绝对的，但可重复性一定是比较强的——比较强才有实际意义啊。关联强又意味着什么？意味着共性：两类信息先后顺次发生，具有一定的普遍性。有了大数据、有了大量的案例，才有可能提取这样的共性，才有可能形成知识。

这样，我们就理解了：“数据之所以重要，是因为它能被计算机处理；大数据之所以重要，是因为它便于提炼共性。”

但是，理解了这句话，对我们有什么用呢？一个显然的工作就是：数据处理和共性提炼是未来极其重要的工作。

按照DIKW体系的观点，数据（D）处理的关键是提炼信息（I），而信息的关联是知识（K）。当提炼信息、提炼知识能做到“自动化”的时候，知识的完备性大大加强时，就可以设法实现信息感知、决策和执行的自动化，也就开始具备智慧（W，其实叫智能或许更合适）。这时，机器就可以代替人类的很多工作时，人类自由的时代就临近了。

接着，我们把认识再深入一步：我们的重要工作是为数据的处理、知识的提炼奠定基础。孔子说：预则立，不预则废。要把数据处理好、提炼出知识，首先是数据本身包含信息和知识。

按照DIKW体系的观点，数据之间的关联非常重要，数据有了关联才能形成信息，否则数据就不包含金子，而是真正的垃圾。这意味着，收集数据的时候，就要讲究方法。就像我的师傅王洪水先生说的那样，“让数据像录像一样，完整地记录相关过程”。在数据的记录过程中，人的参与往往是信息的断点。收据收集时要尽量减少人的介入。这就是宝钢人常说的“数据不落地”。

从这种意义上说，我们不主张随便把数据收集起来，然后再想如何处理，而是事先为处理数据奠定条件。汽车跑得快，关键的约束往往是路况，而不是车子的性能。同样，数据条件不好，处理水平再高也分析不出什么东西。

我有个观点：一个技术之所以难，往往是因为相关的条件不具备。进入数据时代，要想技术领先，关键是花时间去奠定相关基础，而不是针对一堆垃圾数据使蛮力。条件好了，高技术往往是水到渠成的。

来源：蝈蝈创新随笔

汽车自动驾驶

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-07-21