1、靠谱的分析结果,依赖于靠谱的数据和靠谱的分析过程。
在大数据的背景下,这个结论是不是仍然成立?我认为仍然成立。数据量多了,可以滤除随机干扰、可以找到更多的佐证、可以打造更加完整、严密的逻辑链。如此可以。
2、未经认真论证的结果,往往不靠谱。
“春运期间,有个记者在很多辆火车上问:大爷、大娘、小伙子、小姑娘,你们都买到票了吗? 记者调查了成百上千的火车,成千上万的乘客,发现大家都买到了票。于是他发了新闻:今年春运火车票很好买”。这个段子告诉我们:无论数据再多,离开正确的方法,都不能得到正确的结论。
3、数据的相关性可以提供线索,但不能作为靠谱的结论。
大数据的迷人之处,在于相关性能够给我们提供一些意想不到的视角,并让我们得到意想不到的结果。但是,好的发现往往是可遇不可求的,甚至针对同一个问题的方法也未必一直有效。
4、如果对结果的可靠性要求不高,大数据分析是个不错的选择。
“推荐商品”往往是一个对可靠性要求不高的事情。是否采纳推荐结果才是关键的的。是否采纳数据分析的推荐结果,与事情的重要性有关:随便买点小商品是可以的,可能让你倾家荡产的事情恐怕就没那么简单了。
5、如果要求结论必须靠谱,就必须把主要精力放在数据质量和分析方法上。
数据质量不仅是数据的精度,关键是数据的相关背景要完整、数据来源不能偏颇。比如,数据是怎么得到的、影响数据的因素有哪些等等。获取数据的时候就要想到:这些数据的一个重要作用是用来证伪的。如果数据的质量不好,就既不能证明、也不能证伪:只能似是而非。
6、得到一个靠谱的结论,可能要比得到一万个相关性都难。
仅仅描述相关性,就像喝酒时随便吹牛;论证靠谱的结论,就像科学发现。难度当然不可同日而语。论证的过程,可能要比得到猜想复杂得多。