大约20年前,我开始从事性能预报模型的研究。期间我隐约地感到:用数据分析因果关系是非常必要的。由于偶然的原因,我看到了北京大学耿直教授的一篇文章,讲的就是因果分析。为此,我还请耿老师到宝钢做了一次报告。我感觉思想蛮好的。甚至想到过开发一些工具,但最后不了了之。
这个项目我先后做了12年。回想起来,其实就是通过量化的手段印证因果关系。2017年,我到清华做访问学者时,有老师告诉我:您做的其实是“第四范式”啊。所谓第四范式,就是用大数据发现科学规律。后来得知,居然有个图灵奖就是研究这个问题的。这个方向能够获奖,让我有点惊讶。最近,让我更加惊讶的事情发生了:居然有人用这类方法获得了诺贝尔经济奖!
我在清华期间,数学系的几位老师请我吃饭。其中还有一位来自美国宾州大学的林老师。林老师说起了他的一个疑惑:我们搞了几十年的概率统计,大数据时代就没有用了吗?
我对林老师说:概率统计是一门数学学科,其科学性是无可取代的。但统计结果的成立,是有前提和假设的。在大数据时代,这种假设并不是天然满足的。但是,我们可以通过大数据的分析和组合,创造出条件,让概率统计的结果变得有效、并用来发现科学规律。在我看来,这就是第四范式的思想。所以,大数据时代,有前人所没有的机会。林教授听罢大悦。
这个项目我研究了12年,我总是用最简单、最直接的办法分析问题。因为我知道:简单的方法才是最靠谱的。但用好简单的方法,其实并不容易。公司评奖时,给了我一个三等奖。有人质疑说:这个项目没有用什么高级算法,就是简单的线性回归,有什么技术含量呢?
这件事,经常我想到一个故事:达尔文在非洲野蛮部落里找了一个孩子,带回英国接受现代教育。孩子成年后,将其带回部落,希望他带领部落走向现代社会。达尔文再次来到合格部落,问起孩子的下落。酋长说:我们把他吃了——这个孩子既不会打猎、也不会爬树摘果子。什么用处也没有,只能吃掉了。
尼克松说过一句话:共同的进步才是真正的进步。这句话其实非常值得品味。中国的科技的希望,其实在于年轻的一代:缺乏独立思考能力、缺乏批判性思维的一代人退出历史舞台后,就会有新的希望。