正态分布K-S与S-W检验
摘要
柯尔莫戈洛夫-斯米诺夫检验(K-S检验)和夏皮洛-威尔克检验(S-W检验)是两种常用的正态性检验方法。对于小于50行的小样本数据,通常选择S-W检验;大于50行的大样本数据则倾向于使用K-S检验。在数据量介于3-50之间时,尽管两种方法可能得出不同结论,但通常更信赖S-W检验的结果。而当数据量超过5000行时,SPSS默认只显示K-S检验结果。正确选择和应用这两种检验方法有助于得出更科学、有说服力的数据分析结论。
正文
Ⅰ.柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test),简称K-S检验;
Ⅱ.夏皮洛-威尔克检验(Shapiro—Wilk test),简称S-W检验。
大部分时候,这两种方法得到的检验结果大体相同,以致于很多人都忽视了这两种检验方法的区别。但在进行数据的正态性检验的时候,我们有必要对这两种方法有基本的了解,使我们得出的分析结论更科学、更有说服力,更有的放矢。1.当分析小于50行的小样本数据时,我们倾向于看S-W检验得到的正态性检验结果;显著性P:W检验结果显示,W=0.993,P值=0.704>0.05,接受H0假设,认为这个变量数据服从正态分布。结论可撰写为:在α=0.05的检验水准下,可认为数据资料服从正态分布(W=0.993,P>0.05)。2.当分析大于50行的大样本数据时,我们倾向于看K-S检验得到的正态性检验结果;首先我在SPSS中生成了一组30行的随机数,并对这组随机数进行了正态性检验,得到的正态性检验结果如下图所示:使用K-S检验得到的显著性检验P值=0.024,小于0.05,表明这组数据不满足正态分布;而使用S-W检验得到的显著性检验P值=0.054,大于0.05,表明这组数据满足正态分布。此时,我们应该倾向于接受哪种检验方法得出的结论呢?我们注意到这组数据仅30行(自由度),是一个小样本数据,如果数据量在3-50之间,我们倾向于看S-W检验的结果,因此,这个案例中我们更倾向于认为这份数据满足正态分布。3.当数据量大于5000行时,SPSS只会显示K-S检验这一种检验方法。