《黑天鹅》一书有提到一个小故事,作者问两个人同一个问题:如果硬币抛了99次,都是正面朝上。请问第100次抛硬币,正面朝上的概率有多大?
对这个问题,大学者的答案是:正面朝上的概率还是50%。原因是经典的:每一次抛出正面的概率,与前面的结果无关。而一个老油条却说:当然是朝上的概率大!99次都朝上了,你还能假设每一面朝上的概率都相同吗?
看到这个故事,真的让我拍案叫绝!几年前我还和一个统计学教授争论。我认为不能把不确定性事件都看成“有概率分布的”。20年前我在宝钢分析连铸坯缺陷时,就意识到这个问题了。因为影响因素并不是按照一定概率发生的。学术界解决实际问题时,最常见的毛病就是假设问题符合书本上理论的要求。就像在“郑人买履”的寓言中讲到的:宁可相信理论上的要求,而不相信实际的结果。
80年代读大学的时候时候,就问过概率论老师一个问题:人口统计时要计算男女比例。如果有两组数据,一组是全国放在一起的;一组是各省单独的。如果所有的统计结果都是51.2:48.8。那么,两组数据包含的信息一样吗?老师的回答是:如果分布一样,信息就一样。我自己从事数据分析工作后意识到:“分布一样”其实是一个假设,不成立的场合很多。这个假设需要检验的。如果各省的数据都有,本身就可以检验分布是否一样假设。所以,两者的信息量其实不一样。
从事数据分析的时候,要有一定的基础理论,但同时还要认识到理论和实际的差别。