做创新,为什么要认识问题的本质。我想,是想知道做什么是真正重要的,是为了避免走入歧途、陷入细枝末节。 昨天,我在微 信朋友圈中发了一段话,探讨数据和大数据的本质:“数据之所以重要,是因为它能被计算机处理;大数据之所以重要,是因为它便于提炼共性。”这段“废话”到底意味着什么呢?
我想从人类的理想谈起。自由是人类追求最终理想。所谓自由,前提是可以不做自己不喜欢的事。繁重的体力劳动、枯燥的脑力劳动都是人不愿意做的。所以,人类必须把这些工作交给机器去做,这就是自动化。
我们知道,重复性的工作,自动化可以做得很好。强调“重复性”其实是成本问题,重复的次数越多,成本越低。但“重复性”还有个前提,就是边界条件或环境相对稳定。如果外部环境不断变化,重复性的工作也很难做。传统的自动化也能在一定程度上应对变化,而智能化就是能应对更复杂的变化。例如,自动驾驶就是应对路况的各种变化。从这种意义上讲,智能化本质上是高级的自动化。只要应对变化,就要获得并处理这些时刻变化的信息。要实现自动化或智能化,关键就是信息的自动处理。
数字化为什么重要?因为数字化才能被计算机处理,才能摆脱人,才能实现自动化、智能化。
如何处理信息?这就需要知识。有了知识,我们才会知道信息意味着什么。比如,红灯意味着需要停车。
要实现自动化,知识必须让计算机处理。传统的做法,是用编程序的办法,把知识变成程序代码。
然而,人的很多知识自己都说不清楚。比如,开车的都有一条知识:“看到老年人过马路要慢一点”。那么,多远开始减速?慢到什么程度,如何识别老人?如何判断老人想过马路? 对待不同年龄的老人有什么不同?.... 把这些知识用代码编出来就太难了。而且,我们甚至不知道机器应该知道多少类似的知识,才能实现自动驾驶。由此可见,智能化并不容易。这个困难一直困惑着我们。
知识的表达成为关键困难时,人们想到的办法就是让机器自己去学习。学习就是获取知识。
那么,知识是什么?知识是一种关联信息的关联:一种信息告诉我们发生了什么,另外一种信息告诉我们会发生什么。现实中,两类关联可能不是绝对的,但可重复性一定是比较强的——比较强才有实际意义啊。关联强又意味着什么?意味着共性:两类信息先后顺次发生,具有一定的普遍性。有了大数据、有了大量的案例,才有可能提取这样的共性,才有可能形成知识。
这样,我们就理解了:“数据之所以重要,是因为它能被计算机处理;大数据之所以重要,是因为它便于提炼共性。”
但是,理解了这句话,对我们有什么用呢?一个显然的工作就是:数据处理和共性提炼是未来极其重要的工作。
按照DIKW体系的观点,数据(D)处理的关键是提炼信息(I),而信息的关联是知识(K)。当提炼信息、提炼知识能做到“自动化”的时候,知识的完备性大大加强时,就可以设法实现信息感知、决策和执行的自动化,也就开始具备智慧(W,其实叫智能或许更合适)。这时,机器就可以代替人类的很多工作时,人类自由的时代就临近了。
接着,我们把认识再深入一步:我们的重要工作是为数据的处理、知识的提炼奠定基础。孔子说:预则立,不预则废。要把数据处理好、提炼出知识,首先是数据本身包含信息和知识。
按照DIKW体系的观点,数据之间的关联非常重要,数据有了关联才能形成信息,否则数据就不包含金子,而是真正的垃圾。这意味着,收集数据的时候,就要讲究方法。就像我的师傅王洪水先生说的那样,“让数据像录像一样,完整地记录相关过程”。在数据的记录过程中,人的参与往往是信息的断点。收据收集时要尽量减少人的介入。这就是宝钢人常说的“数据不落地”。
从这种意义上说,我们不主张随便把数据收集起来,然后再想如何处理,而是事先为处理数据奠定条件。汽车跑得快,关键的约束往往是路况,而不是车子的性能。同样,数据条件不好,处理水平再高也分析不出什么东西。
我有个观点:一个技术之所以难,往往是因为相关的条件不具备。进入数据时代,要想技术领先,关键是花时间去奠定相关基础,而不是针对一堆垃圾数据使蛮力。条件好了,高技术往往是水到渠成的。