在最近的一次全国性的学术会议上,我做了一次大会报告。主要讲用工程思维对待大数据分析,强调不要把大数据分析当成“算命先生”。话音刚来,网上看到了北方某著名高校的奇文《行长的面部宽高比影响银行业绩的路径研究》横空出世。
我研究创新多年,经常提到所谓的“大智若愚”。但现实中的“大愚若智”却多得多。昨天和朋友们提到:某学者出身的高 官,力主某不成熟的技术,结果让某企业亏了上百亿。知情人知道他是假把式,不知情的却往往很欣赏他。中国科技界有不少脱离实际、只会纸上谈兵的人。前天我还对一位企业家讲:要搞好智能制造,前提之一是不要被学术界的某些人忽悠。
但也有人认为:这种研究是值得鼓励的 创新吗?于是我想:面对科技浪潮,分清“洞见”和“扯淡”是非常重要的。
商业活动中的“洞见”有个重要的特点:其逻辑可行性可以由常人事先判断。例如,互联网、大数据、AI行业的一些“奇迹”,如淘 宝、预报感冒、阿尔法狗等——其逻辑可行性没有问题的、事先可判断的。汽车、火车、电话、电灯、电脑莫不如此。“洞见”之所以可贵,是因为人们对技术发展的程度、速度、规模、重要性的认识是模糊的,以至于被很多人漠视甚至鄙视。比如,当年火车速度很慢、电脑的运算速度慢、网络成本高等。也就是说,人们难以意识到的是某种“量变到质变”的飞跃。
与商业活动先比,科学研究活动中的“洞见”可能超出常人的思维能力,而专业人士也未必有耐心去听。相对论、非欧几何都是这样。对于这样的研究,非专业人士可以感兴趣也可以不感兴趣,但不要用非专业的知识去点评。唯一可以点评的是:做这些研究的人也要尊重别人的专业,不赞同没受过高等教育的业余爱好者去研究哥德巴赫猜想。
我曾把科技活动分成四类:是科学也是技术、是科学不是技术、不是科学是技术、不是科学也不是技术。很多中国学者的学术素质太差,根本分不清楚其中的区别。于是,他们研究的就是第四类,或者说伪科学、伪技术:既不发现知识,也不创造价值。比如,计算机领域的“透明计算”,居然得了国家自然科学一等奖,成为世界性的笑话。可以断言:只要这样的笑话存在,中国科技兴国就没戏。
《行长的面部宽高比影响银行业绩的路径研究》也是这样。是科学研究吗?不是。因为科学研究讲究因果,这两个问题没有因果。是技术研究吗?也不是。银行会根据面部宽窄选拔干部吗?这样的研究只能是典型的哗众取宠。
有人可能不服气:这可能是科学发现啊。我可以断言:即便这种相关性存在,也不是具有因果性的科学发现。做过数据分析的人都知道:数据可以发现很多令人吃惊的结论。比如“脚丫子大的孩子智商高”、“练太极拳的人身体差”。为什么会有这样的结论呢?因为“年龄大的宝宝脚丫子大”、“练太极拳的人中老弱病人”。类似的,美国人曾经做过一些研究,“皮肤黑的容易犯罪”——但黑人的犯罪率高是众所周知的。
我们再来看看这种分析的可行性。我做了20多年的数据分析,深知数据分析之难。
我给人讲大数据时,常提到马克.吐温的一句话:“戒烟最容易了——我戒了200多次”。用这句话来说:通过数据分析发现“新知识”太容易了——关键是靠谱吗?
某元素对材料性能的影响是有定论的。但我曾估算过:利用大生产数据,要把误差控制在10%以内,大约需要20000个样本,概率才能达到67%。这也从某个角度说明了大数据的重要性。但这也说明:对于多因素的复杂问题,用数据分析方法的难度是很大的。我不知道:论文作者到底分析了多少张行长的脸,就得到这样的结论?说句难听一点的话:科学研究搞得好的人,那是需要一点智商滴!
诚然,要推进科技活动,需要有包容的心态。但所有的科技活动,都需要考虑两个问题:成功概率、项目的投入和价值。离开这两个指标谈科技,无异于耍流氓。不谈这两个指标,再多的钱都会丢到水里,浪费的是纳税人的血汗钱。
我也赞成做一些成功概率低、投入高的事情,比如核聚变研究。原因是:这些研究的价值很大,值得去探索。但是,做那些成功概率低、价值又低的“科研”却是愚蠢的。否则,为啥人们会笑话“守株待兔”呢?支持他们的人不妨问一下自己:如果他们的工资是你来出,你愿意吗?作为纳税人,我肯定不愿意。当然,如果他们愿意自费研究,我就不关心了。
我们身处一个伟大的创新时代,但也是一个骗子和蠢货频频出没的时代。认清“洞见”和“扯淡”,是非常重要的。否则,科研经费再多,也填不满愚蠢带来的无底洞。更何况,我国还有那么多贫困人口、那么多看不起病等死的人。这样浪费公帑,是不负责任的。