首页/文章/ 详情

疫情发展与数据标准化

1年前浏览179

 最近一个月,每天早上第一件事就是看疫情进展情况。今天(20日)早上又看到了一个令人振奋的消息:武汉确诊病例终于降到了3位数!看到这个数字,真的令人高兴,让我感到春天来了。


  有个数字却令很多人困惑:湖北新增确诊349例,而武汉新增615例。武汉是湖北的一部分,湖北的新增怎么会少于武汉?原来,“新增确诊”的定义是:昨天真正新增的数字,减去昨日纠正的误诊(核减)。昨天湖北多地的增量是负数,武汉新增确诊就大于了湖北。这个算法已经有几天了,但过去很多人没有注意到。


  我想,大家关心真正的“新增确诊”是多少。因为这个数字能体现疫情的发展情况。如果按照前面的方法计算,数据的指标意义就会大大下降。


  我们设想:如果这样计算,一个地方可能有10人真正确诊,又纠正了过去10个误诊。结果就是新增却是零。如果各级、各地都这么算,就更是一笔糊涂账了。我们假设某个镇有两个村;甲村真正确诊10人、纠正8人,则新增确诊是2人;乙村真正确诊8人、纠正10人;核减2人。这样,这个镇真正确诊18人,但上报新增数却是0。如果各地按照自己的核算标准层层上报,恐怕连卫生主管部门都不清楚疫情到底发展到什么情况。


  而且,前些天确诊人数的基数大、核减的人数也会多。如果这么计算,就会存在这种可能性:各地新增人数都不增加,而疫情却仍然严重?基于这样的分析,就会得到错误的结果、并导致人们采取错误的行动。


  我搞了很多年的数据分析,数据内涵模糊的情况特别多。前些年,一位老领导想统计一下前一年科技项目准时结题的数目。结果却发现很难。一个原因就是对“结题”的定义不明确:可以是项目打报告确认可以结题的时间、可以是开评审会的时间、可以是评审结果确认时间、可以是领导签字时间、可以是归档完成的时间......


  昨天晚上,有位师弟问我:搞数据分析的时候,是数据重要还是算法重要。我毫不犹豫地告诉他:多数情况下,是数据重要。只有数据能够代表真实和科学的时候,数据分析才是有价值的。

来源:蝈蝈创新随笔
通用科普
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-07-22
最近编辑:1年前
蝈蝈创新随笔
只是把思考的日志搬运,不当之处...
获赞 92粉丝 14文章 1159课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈