春节期间,陈小平教授用疟疾治癌症的消息在朋友圈刷屏了。长期以来,我一直对中国学术界批评有加,对各种“放卫星”的成果不理不睬甚至持否定、鄙视态度。不久前,我甚至还在公 众号上写了一篇文章《科技界,真荒唐》。
然而,这次我却毫不犹豫地评价道:“这可能是当代中国科学家对人类做出的最重要的贡献。”
当大家怀疑这是谣言、骗子的时候,我为什么会一反常态,做出这样的表态呢?因为依据我的经验,骗子不会这么聪明——如果他们这么聪明,就没有必要去做骗子了。这里,所谓“我的经验”就是我做了几十年数据分析和技术创新的经验。
我从1990年做数据分析,先后从事了20多年的数据分析工作。其中,2002~2013年的12年间,大部分精力都在做一件事的数据分析。文章中的思维方式,和我分析问题的思维方式是相当接近的。如果没有进行过深入的分析研究工作,这种思维方式是体会不到的、很多话是写不出来的、很多事情是不会去做的。
果然,钟南山院士出来表态,证明这不是谣言。
科学探索有不确定性。不是谣言,并不能证明观点是正确的。其实,钟南山院士的表态就相当谨慎。前天,著名科普公 众号“赛先生”发表了浙大王立铭教授的文章《疟疾治癌症,请不要盲目乐观》。文章对这件事中的数据,进行了质疑。
看到这篇文章,我却更加乐观了。
这篇文章给出了更加详细的数据和质疑,认为疟疾治癌症的证据并不靠谱。比如,疟疾和癌症发病率的负相关性很弱等,这种相关性还存在其他解释、数据分析有漏洞、错误等。对此,我的观点是:王教授的质疑是正常的、体现了科学的精神;严格证明这种方法有效,应该还有很长的路要走。
但是,读了这篇质疑的文章,让我对数据有了更多的了解,对陈老师的信心更大了。其实,我过去分析的一些结果,开始的时候也是“漏洞百出”。但感觉告诉我:结果非常可能是对的。坚持下去,确实就是对的。这种直觉,有时候说不清楚。
相关性低,是合理的。长期做数据分析的人都知道:对于大家都特别关注的问题,突然得到一个强相关的新发现,几乎从来就是不可能的。这就是我常说的“人择原理”或者“幸存者偏差”:如果两件事是强相关的,别人老早就发现了,今天也就没有创新的机会了。一般的情况,都是受到某种特殊的启发,才进一步研究下去的。比如,疟疾和癌症发病地图这件事。
相关性弱是很自然的——因为干扰因素太多了。比如,癌症最主要的相关因素是年龄。这一点,陈小平教授自己就已经考虑过了。再如,得了癌症又得疟疾的人,才会体现出相关性;前提还是诊断正确。能够体现出微弱的相关性,已经是非常不容易了。而且,这种相关性居然能够重复出现——这就是非常不容易了。
30年前我在大学读概率论的时候,向范大茵老师提出一个问题:据说人口出生比例是51.2:48.8。 对于这个结论,“全国平均数如此”和“各省的结果都如此”两者的信息量是不是一样的?这个问题的背景是:不论差别多小,“可重复性”是非常重要的。看了王教授的文章,我认为陈老师的一些数据是有可重复性的。这就是我更加乐观的原因。更何况,陈老师的分析是从多个角度切入的。这一点也增强了我的信心。
所谓的数据分析,就是与数据中的假象做斗争;所谓的科学研究,就是去除认识中的干扰。提出一个发现或猜想的偶然性很大,验证一个结论的难度却很高。这是科学发现的规律。但是,验证结论之前,人的直觉判断非常重要,否则坚持不下去。
我在宝钢把一个数据分析项目做了十二年,后面的很长时间是在验证我的猜想。我为什么愿意花我学术生涯中最重要的十二年去验证一件事? 因为直觉告诉我,这个方向是靠谱的,我不会失败,值得去研究。看到陈老师的思维方式,我的感觉是一样的。
预祝陈老师成功,祝福全人类幸福。