首页/文章/ 详情

一文搞懂“正态分布”所有重要知识点

3月前浏览3719

要谈六西格玛,那么必然绕不开正态分布。正态分布,这个我们从六西格玛学到的内容,真有这么重要吗?


真正学懂的人,对这一点是不会质疑的。彻底弄懂正态分布,是灵活运用统计学中各种假设检验方法、看懂p值,理解均数置信区间的前提。


今天,小编尝试带着大家搞懂对于正态分布你需要知道的所有知识点。

01

正态分布的概念

正态分布,又称高斯分布(Gaussian distribution),是概率论和统计学中最重要的概率分布之一。它以其独特的钟形曲线图形而著称,具有许多重要特性。

   

正态分布的概念可以简要描述如下:


正态分布是一种连续型的概率分布,其特点是具有对称的钟形曲线,以均值为对称轴,左右对称。曲线的峰值对应于均值,随着距离均值的增加,曲线逐渐下降。这种分布是由两个参数完全确定:均值(μ)和标准差(σ)。


正态分布的概率密度函数可用如下公式表示:

   

其中,μ 是均值,σ 是标准差,π 是圆周率(约等于3.14159),e 是自然对数的底(约等于2.71828)。


正态分布具有许多重要性质,包括对称性、均值、中位数和众数相等、标准差决定曲线宽窄等。这种分布在自然界和人类行为中经常出现,对于建模和分析各种现象具有广泛的应用,例如自然科学、社会科学、经济学、金融学、医学等领域。


正态分布基本上能描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见。


我们研究正态分布,是因为很多的对象都具有同质性(比如都是成年的中国男子),所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征,即呈现出正态分布数据。

02


为什么质量行业要研究正态分布

质量行业研究正态分布是因为正态分布在质量控制和质量管理方面具有重要的应用和意义。正态分布作为一种常见的概率分布,适用于描述大量自然现象和随机变量,其中包括了许多质量相关的数据。


以下是质量行业研究正态分布的几个重要原因:1、自然现象的符合性:在实际的质量数据中,很多质量特性往往服从正态分布。这是由于质量特性受多种影响因素的综合作用,符合中心极限定理,使得数据趋向于呈现正态分布。


2、质量控制和过程改进:正态分布对于质量控制和过程改进非常重要。在质量控制中,可以利用正态分布特性来制定质量标准、评估过程稳定性和判断质量改进效果。统计过程控制图(如控制图)常利用正态分布假设来判断过程是否处于受控状态。


3、假设检验和质量对比:在质量对比和假设检验中,假设数据服从正态分布使得分析更为简便。这种假设在质量行业中经常用于检验产品特性是否符合某一标准或两种产品之间的质量是否有显著差异。


4、参数估计:正态分布的参数估计对于质量数据的分析和预测至关重要。通过对样本数据进行参数估计,可以推断总体质量特性的均值和标准差,进而进行质量改进和控制。


5、风险评估和质量风险管理:在质量风险评估中,正态分布可用于估算不同质量水平下的风险概率。这对于制定质量策略和风险管理具有指导意义。总的来说,正态分布在质量行业中的应用能够帮助企业更好地理解和控制质量过程,制定合适的质量策略,提高产品质量,降低质量风险。

03


区间概率

了解了正态分布的基本概念,我们就知道正态分布属于“连续型随机变量分布”的一类。那么,对于连续型随机变量,我们的研究方法是:不关注“点概率”,只关注“区间概率”。


这是什么意思呢?举例说明:


假定随机变量X指是“某市成年男子的身高”,理论上它可以取任意数字,这里,我们如果要看身高是1.87米的概率是多少,即所谓的P(X =1.87),这里就是研究的“点概率”。


更极端一点,让随机变量Y是[0,1]这个区间上的任意一点,那么Y的取值有多少个呢?无数多个,我们数不清楚,所以Y 取某一个具体的值的概率是1除以无数,即可以看做是0。于是,这里透露一个很重要的结论:连续型随机变量取任意某个确定的值的概率均为0。因此,对于连续型随机变量,我们通常不研究它取某个特定值的概率,而研究它在某一段区间上的取值,比如身高在1.70~1.80的概率,即为研究的区间概率。

04


均数和标准差

一旦谈及正态分布,我们首先要想到它的两个参数:均数和标准差。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。


正态分布均数和标准差的性质:

1)概率密度曲线在均值处达到最大,并且对称;

2)一旦均值和标准差确定,正态分布曲线也就确定;

3)当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;

4)正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 ;

5)均值可取实数轴上的任意数值,决定正态曲线的具体 位置;标准差决定曲线的“陡峭”或“扁平”程度:标准差越大,正态曲线越扁平,图形呈现“矮胖型”;反之,标准差越小,正态曲线越陡峭,图形上呈现“瘦高型”。


这是因为,标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围,图形所能覆盖的变量值就少些(比如1±0.1涵盖[0.9,1.1]),于是都挤在一块,图形上呈现“瘦高型”。相反,标准差越大,数据跨度就比较大,分散程度大,所覆盖的变量值就越多(比如1±0.5涵盖[0.5,1.5]),正态曲线越扁平,图形上呈现“矮胖型”。


举例如下:

   

对照上图直观地看一下,图中黄色曲线为A,蓝色曲线为B,紫红色曲线为C。如图,我们可以看到均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦。A和B的均值一样,但标准差不同,所以形状不同,根据我们的描述,图形越瘦高,标准差越小,图形越扁平,标准差越大。确实如此,图中B的标准差是1/2,小于A的标准差1。

05


概率密度函数和累积分布函数

在正态分布中,概率密度函数(PDF)和累积分布函数(Cumulative CDF)是两个关键的函数,用于描述和计算正态分布的概率分布情况。


对于初学者来讲,这2个概念可能是最不友好的2个概念,如果没有太多数理基础,着实不太好理解。


概率密度函数(PDF)

前面我们讲了区间概率,这里你就可以通过区间的角度来理解概率密度曲线:曲线越高,也就代表着这个区间的数据越密集,简单理解成在同样大小的房子里,这个房间的人数更多、更挤。


累积分布函数(Cumulative CDF)

除此之外,另一个关于概率密度函数的重要知识点是,累积分布(简称积分)(这里简单理解为“密度曲线下面积“即可)等于概率。


随机变量X,在某个区间比如(a,b)即a<x<b的概率,就是概率密度曲线在这个区间下的面积,数学上的表达就是密度函数在区间(a, b)上的积分。


所以,概率的大小就是“概率密度函数曲线下的面积”的大小,这个不太起眼的概念实际上就决定了你日后是否能理解,假设中所谓的“拒绝域”。


下图中的三条曲线f(x),就是概率密度函数,各种形式的概率就是相对应的曲线下面积。这里,数学基础不太好的同学不用特别深挖积分的计算过程,但对这三张图与对应的概率表达形式,大家要熟知。

   

这里,数学基础不太好的同学不用特别深挖积分的计算过程,但对这三张图与对应的概率表达形式,大家要熟知。


如果数学基础,有一定的统计学基础的,可以看看下面这张图片关于这2个数值的数学公式;

   

这两个函数对于理解和应用正态分布非常重要,能够帮助分析随机变量的概率分布特性、计算概率以及进行假设检验等统计推断。但是数学基础不好的同学,只用记住上面的那三张图去应用就好了。

06


正态分布的应用

1、描述和总结数据:

计算数据集的均值和标准差,以描述数据的中心位置和分散程度。这对于初步了解数据的分布情况至关重要。


2、检验数据分布是否近似正态分布:

通过绘制直方图、概率密度函数图或 Q-Q 图,以直观方式观察数据分布是否近似正态分布。


3、参数估计和推断:

如果数据分布近似正态分布,可以通过样本数据估计正态分布的参数(如均值和标准差),从而对总体参数进行推断。


4、概率计算:

利用标准化将数据转换为标准正态分布,然后使用标准正态分布表或计算工具,查找概率、计算置信区间等。这对于计算特定概率或进行置信区间估计非常有用。


5、假设检验:

根据正态分布的性质,可以进行假设检验,以验证关于总体参数的假设,比如均值是否等于某个特定值。


6、模拟和预测:

基于历史数据的正态分布特征,可以进行模拟和预测未来事件的概率分布,用于决策制定和风险管理。

07


标准化与查表求概率

最后通过一个实例来讲解标准化和查表求概率:


假设小丸子每天上班的通勤时间是一个随机变量X,这个变量服从正态分布。统计他过去20天的通勤时间(单位:分钟):26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上班花30~45分钟的概率。


首先,我们将问题转化为数学表达式,要算他上学花30~45分钟的概率,就是求P(30 < X < 45)。记得前文提到:


一旦谈及正态分布,我们首先要想到它的两个参数:均数和标准差。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。


所以,我们首先计算这20天通勤时间的样本均数及标准差,分别为38.8(分钟)和11.4(分钟)。


然后,我们进行标准化,这一步很重要,也称z变换。


所谓标准化,就是将一组实际正态分布的数据转为标准正态分布,方便我们使用标准正态分布表或计算工具,来查找概率、计算置信区间等。


怎么标准化呢?参考下图:

   

通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为0,标准差为1的标准正态分布。对于服从标准正态分布的随机变量,专门用z表示。因此,求P(30 < X < 45),就转换成了求P(-0.77 < Z < 0.54),标准化的具体计算为:

30 →(30-38.8)/ 11.4 = - 0.77

45 →(45-38.8)/ 11.4 = 0.54

X → Z

P(30 ≤ X ≤ 45)= P(-0.77 ≤ Z ≤ 0.54)


这里简单提醒一下,经过标准化后,原来的曲线的形状不会变化,即不会改变胖瘦,只是位置发生平移,比如下图中的例子,经过标准化实际上只是均数从1010移到了0。

   

标准化后,我们就可以通过利用标准正态分布表,找到对应的概率值。这就是所谓的查表求概率;

   

一定要记住,图中阴影部分的面积代表的是Z ≤ z的概率。


另外,还有两个根据定义成立的两个公式:一是P(Z ≥ z)= 1- P(Z ≤ z);二是P(Z≤-z)= 1-P(Z ≤ z)来查表。


下面我们正式看看怎么查表,前面我们已经把问题转化成求P (-0.77 ≤ Z ≤0.54) = P (Z ≤ 0.54)–P (Z ≤ -0.77),于是,我们需要找到Z≤0.54和Z≤-0.77的概率值然后相减即可。


先看Z≤0.54的P值,对照下图,首先看表格最左边那一列,找到0.5,然后,因为0.54的第二位小数是4,所以定位到顶行找到“4”那一列,得到0.7054;

   

同样的方法,找到Z≤-0.77对应的P值0.2206。最后我们就能算出,P (-0.77 ≤ Z ≤0.54) = 0.4848,约等于0.5。因此,我们可以说,小明上学通勤时间花费30~45分钟的概率是50%,这个概率还挺大的,占了一半。


通过这个具体的例子,给大家详细讲解了随机变量在某个区间的概率求解,不是因为这个计算有多重要,而是想提前给你打好基础,方便理解假设检验及p值等相关概念。

 
 


来源:诚智鹏
UM理论尺寸链控制
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2024-07-16
最近编辑:3月前
尺寸链计算及公差分析
尺寸链计算及公差分析软件
获赞 105粉丝 145文章 184课程 6
点赞
收藏
作者推荐
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈