首页/文章/ 详情

大数据分析的本质仍然是求同求异

1年前浏览243

     你的逻辑是语文老师教的吗?  我想很可能是的。

  

30年前中学语文课上,老师讲过这样的道理:发现事物背后的原因,有两种基本做法:求同、求异。其实,现在的幼儿的早教课也包含求同、求异的内容。事实上,不论是语文老师还是幼儿园老师,只要他们教的是对的,就没啥不好意思的。我搞了多年的数据分析,本质上就是在做“求同、求异”。  

  

谈到数据分析,很多人会重视相关性、聚类。这两种方法更偏重于“求同”、“异中求同”。在我看来,研究工业大数据时,规律的发现是“异常驱动”的。“正常”是常见的、已知的、往往也是没有价值的;异常则往往是未知的,常隐藏着特别有价值的规律。  

  

但是,用数据表征的客观现实可能存在各种干扰,“正常”的现象会被打扮成“异常”的样子,而“异常”的现象也会被包装成“正常”的样子。所以,刚进入数据分析领域时,首先要学会认识“正常”——这就是我常说的:有了预料之中,才有预料之外。这就要对对象及其数据获取过程有个相对全面的理解。  

  

即便在工业界,要得到靠谱的分析结果,数据量往往也必须有点“大”:大到一定程度,才能把正常和异常区分开来。当然,比“大”更本质的是:数据的分布要足够“散开”、不能聚集在一起,才能进行有效的分析。从某种意义上说,决策树就是一种偏重于求异的方法。  

  

求同、求异的过程也会遇到很大的障碍。除了干扰之外,就是影响因素过多。因素过多时,需要比较的东西太多、往往得不到定论。这时,就可能要借用机理甚至实验。  

  


来源:蝈蝈创新随笔
通用科普
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-07-20
最近编辑:1年前
蝈蝈创新随笔
只是把思考的日志搬运,不当之处...
获赞 92粉丝 13文章 1159课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈