某天你急需一笔钱,便拨通了银行的电话,本以为以你的诚信记录银行肯定会借给你钱,但出乎你意料的是银行拒绝了你的请求。
这时你就感到奇怪了,上个月同样就是这家银行,却借到了钱,怎么这个月就不行了呢?
答案可能绝大多数人都不会想到,上个月的你和现在的你唯一的区别就是你的手机电量不一样。
如果你的思维方式还停留在机械思维时代,这时可能就会开始分析一个人的手机电量和这个人的还款能力的关系。
比如说一个手机电量总是保持比较高的人可以接到更多的电话,所以这个人的风险就会比较低。
但实际上手机电量和还款能力两者的关系不是简单的“因为……所以……”的因果关系,而是人类难以识别的海量数据中提炼出来的关联性。
两者的关系是通过数万笔贷款的数据提炼出来的,对于人来说找出这种相关性是几乎不可能的,工作量实在太大了,但这正是人工智能擅长的领域。
用这些海量的数据来训练算法,这些贷款有些还了而有些没有,就可以发掘出和信用相关的数千个弱特征,比如就像手机电量。
逻辑推理能力是人类特有的本领,知道原因我们就能推理出合理的结果。
在过去我们一直强调因果关系。一般都认为有原因才能有结果,如果找不到原因常常认为结果也是不可靠的。
在过去现代医学里新药的研制过程就是典型的利用因果关系解决问题的例子。
青霉素的发明过程就是有人先发现了细菌会导致多种疾病,然后就很容易想到杀死细菌就可以治好疾病,这就是因果关系。
当弗莱明发现青霉素时,他是不知道青霉素的杀毒原理的,当有人搞清楚青霉素中的一种物质青霉烷能够破坏细菌的细胞壁,这时才找到了青霉素治疗疾病的因果关系。
后来人们又搞清楚了青霉烷的分子结构,最终可以人工合成青霉素。
整个青霉素的发明过程就是不断分析原因然后找到结果的过程,通过因果关系找到答案也十分让人信服。
其它新药的研究过程和青霉素十分相似,科学家通过分析疾病产生的原因,然后再寻找消除这些原因的物质研制出新药。
通常这一过程十分漫长,从发现细菌会导致疾病到人工合成青霉素而量产,几乎用了一个世纪的时间,就是现代一种新药从开始研制到量产也需要10到20年的时间。
按照因果关系研制一种新药需要这么长时间和成本,一般人是无法等待和负担的,但这也是没有办法的。现在有了大数据,寻找大数据的方法和过去就完全不一样了。
根据资料统计,美国一共有5000多种处方药,而人类得的疾病大约有一万种。
如果将每一种药和每一种疾病逐一进行配对,人们就会有一种惊喜的发现,用于治疗心脏病的某种药物可能对治疗某种胃病特别有效。
这种方法应用的就不是因果关系而是强相关关系。
至于心脏病的药为什么对胃病有效,接下来的研究工作实际上是反过来寻找原因。
这种先有结果反过来推导原因的做法显然时间会比较短成本也比较低,当然前提是要有足够多的数据。
在浏览网页时安插广告大家肯定都习以为常了,比如在摄影展的网页上插入相机的广告,在F1的网站上插入汽车的广告,这些广告都用到了相关性的特点。
而根据大量数据的统计结果,一些广告和网页内容搭配特别的好,我们又看不出有什么相关性。
比如在视频网站上插入零食的广告,在女装的网站上插入男装的广告,在咖啡销售的广告上插入信用卡和房贷的广告。
这些搭配如果没有大量的数据统计作为基础,一般人是想不到的。
有的虽然能找到合理的解释,比如电影网站和零食广告的搭配符合人们在看电影时喜欢吃零食的习惯,但把咖啡和信用卡放到一起就怎么也想不出有什么关联了。
根据因果关系找到问题的答案当然是非常好的,但对于复杂的问题,难度非常的大,除了靠努力之外还要靠运气,所以很多问题都得不到解决。
在大数据时代即使不知道原因,我们也可以从大量的数据中找到答案。
这种新的思维方式给我们一种便捷的解决问题的方法。
如果大家接受这种思维方式,跳出机械时代单纯追求因果关系的做法,那么大家就开始具有大数据思维了。
如果大家对大数据时代的强相关关系感兴趣,可以踊跃留言,让我们一起讨论提高。