首页/文章/ 详情

针对大数据的几点认识

1年前浏览600

1、靠谱的分析结果,依赖于靠谱的数据和靠谱的分析过程。

在大数据的背景下,这个结论是不是仍然成立?我认为仍然成立。数据量多了,可以滤除随机干扰、可以找到更多的佐证、可以打造更加完整、严密的逻辑链。如此可以。


2、未经认真论证的结果,往往不靠谱。

 “春运期间,有个记者在很多辆火车上问:大爷、大娘、小伙子、小姑娘,你们都买到票了吗? 记者调查了成百上千的火车,成千上万的乘客,发现大家都买到了票。于是他发了新闻:今年春运火车票很好买”。这个段子告诉我们:无论数据再多,离开正确的方法,都不能得到正确的结论。


3、数据的相关性可以提供线索,但不能作为靠谱的结论。

大数据的迷人之处,在于相关性能够给我们提供一些意想不到的视角,并让我们得到意想不到的结果。但是,好的发现往往是可遇不可求的,甚至针对同一个问题的方法也未必一直有效。


4、如果对结果的可靠性要求不高,大数据分析是个不错的选择。

“推荐商品”往往是一个对可靠性要求不高的事情。是否采纳推荐结果才是关键的的。是否采纳数据分析的推荐结果,与事情的重要性有关:随便买点小商品是可以的,可能让你倾家荡产的事情恐怕就没那么简单了。


5、如果要求结论必须靠谱,就必须把主要精力放在数据质量和分析方法上。

数据质量不仅是数据的精度,关键是数据的相关背景要完整、数据来源不能偏颇。比如,数据是怎么得到的、影响数据的因素有哪些等等。获取数据的时候就要想到:这些数据的一个重要作用是用来证伪的。如果数据的质量不好,就既不能证明、也不能证伪:只能似是而非。


6、得到一个靠谱的结论,可能要比得到一万个相关性都难。

仅仅描述相关性,就像喝酒时随便吹牛;论证靠谱的结论,就像科学发现。难度当然不可同日而语。论证的过程,可能要比得到猜想复杂得多。



来源:蝈蝈创新随笔
通用科普
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-07-19
最近编辑:1年前
蝈蝈创新随笔
只是把思考的日志搬运,不当之处...
获赞 92粉丝 11文章 1159课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈