最后通过一个实例来讲解标准化和查表求概率:
假设小丸子每天上班的通勤时间是一个随机变量X,这个变量服从正态分布。统计他过去20天的通勤时间(单位:分钟):26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上班花30~45分钟的概率。
首先,我们将问题转化为数学表达式,要算他上学花30~45分钟的概率,就是求P(30 < X < 45)。记得前文提到:
一旦谈及正态分布,我们首先要想到它的两个参数:均数和标准差。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。
所以,我们首先计算这20天通勤时间的样本均数及标准差,分别为38.8(分钟)和11.4(分钟)。
然后,我们进行标准化,这一步很重要,也称z变换。
所谓标准化,就是将一组实际正态分布的数据转为标准正态分布,方便我们使用标准正态分布表或计算工具,来查找概率、计算置信区间等。
怎么标准化呢?参考下图:
通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为0,标准差为1的标准正态分布。对于服从标准正态分布的随机变量,专门用z表示。因此,求P(30 < X < 45),就转换成了求P(-0.77 < Z < 0.54),标准化的具体计算为:
30 →(30-38.8)/ 11.4 = - 0.77
45 →(45-38.8)/ 11.4 = 0.54
X → Z
P(30 ≤ X ≤ 45)= P(-0.77 ≤ Z ≤ 0.54)
这里简单提醒一下,经过标准化后,原来的曲线的形状不会变化,即不会改变胖瘦,只是位置发生平移,比如下图中的例子,经过标准化实际上只是均数从1010移到了0。
标准化后,我们就可以通过利用标准正态分布表,找到对应的概率值。这就是所谓的查表求概率;
一定要记住,图中阴影部分的面积代表的是Z ≤ z的概率。
另外,还有两个根据定义成立的两个公式:一是P(Z ≥ z)= 1- P(Z ≤ z);二是P(Z≤-z)= 1-P(Z ≤ z)来查表。
下面我们正式看看怎么查表,前面我们已经把问题转化成求P (-0.77 ≤ Z ≤0.54) = P (Z ≤ 0.54)–P (Z ≤ -0.77),于是,我们需要找到Z≤0.54和Z≤-0.77的概率值然后相减即可。
先看Z≤0.54的P值,对照下图,首先看表格最左边那一列,找到0.5,然后,因为0.54的第二位小数是4,所以定位到顶行找到“4”那一列,得到0.7054;
同样的方法,找到Z≤-0.77对应的P值0.2206。最后我们就能算出,P (-0.77 ≤ Z ≤0.54) = 0.4848,约等于0.5。因此,我们可以说,小明上学通勤时间花费30~45分钟的概率是50%,这个概率还挺大的,占了一半。
通过这个具体的例子,给大家详细讲解了随机变量在某个区间的概率求解,不是因为这个计算有多重要,而是想提前给你打好基础,方便理解假设检验及p值等相关概念。