21世纪是大数据的时代,也是随机的时代,而描述和分析随机现象的基本工具就是概率分布,它们提供了对不同结果可能性的见解。因此这期推送中我们以高斯分布为例,带大家来了解一些常见的概率分布,以及它们的特征,可能的话也会涉及一些它们的实际应用,希望你们能喜欢。
这可能是有史以来最知名的概率分布,当然它还有一个拉风的名字,叫做正态分布。它或许是自然界存在最广泛的分布,以成年人的身高举例通常就是服从正态分布,用白话讲就是:在一个人群中,大多数人往往接近平均身高,更少的人明显高或矮。这有点宿命论的意味,不管你怎么努力或是摆烂,你的最终身高和大多数人都是差不多的。不仅是身高,智商一样,所以你没有特别聪明,也没有特别笨,你只是和大多数人差不多。
我所说的这些并没有什么特别的,我们差不多可以从正态分布的概率密度图像看出来,原谅我用了概率密度这个词,因为我还是忍不住要讲一点稍微专业的数学,不多,所以也不用太过忧虑。高斯分布的概率密度如果用函数来表达,大概是长这样:
我们可以把这个函数可视化,我们可以取一些μ和σ的值,来进行绘制,可以参考下图:
一些特定的高斯分布
从这些图中我们可以尝试总结高斯分布的一些数学特征,比方说:μ是均值表示的是分布的中心位置,是标准差描述分布的宽度或离散程度,当然我们也能清楚地看到概率密度的图像是一个对称的钟形,最高点位于均值μ,因此我们也常把高斯分布的图像叫做钟形曲线。
当然有一些你可能不是那么容易看出来,但是我还是要提,对于正态分布,均值、中位数和众数是相同的,并且都位于分布的中心。还有所谓的68-95-99.7法则:即在正态分布中,约有68%的数据位于均值的一个标准差范围内(即);约有95%的数据位于两个标准差范围内;约有99.7%的数据位于三个标准差范围内。以尾部渐近性:正态分布的尾部永远不会精确地达到x轴,但会无限接近。当然它的函数表达式也告诉我们,正态分布完全由其均值和标准差决定。
看到这里我相信你一定也发现了,我有点偷奸耍滑,用了我没有介绍的数学知识,很抱歉,因为我想尽可能地多的讲一点,但如果你没有看出来我所讲的那些,也不要紧。可以专业的教科书去看看推导,那一定比我讲的要好。
至于最后,我还想说明为什么我们以高斯分布为例来带大家了解概率分布,除了它广泛存在事实上还有些数学上的原因,最重要的一个我认为要归功于中心极限定理,该定理是在说:如果我们从任何分布(不论其形状和均值或方差是多少,但方差需要是有限的)中抽取大量的随机样本,并计算这些样本的平均值,则这些平均值的分布将接近正态分布。这意味着,对于大量的随机样本,我们可以使用正态分布进行推理,即使我们不知道原始分布的形状。很神奇是不是?当我第一次看到这个定理的时候也是这样的感觉。
当然还有些数学原因,不过并不是那么重要了,对于给定的均值和方差,正态分布是具有最大熵的分布。在信息理论中,熵被视为表示不确定性的量度。这意味着在给定的均值和方差下,正态分布是所有可能分布中最不具确定性的,或者说最为“不偏见”的。
好了,今天这期就到这里,希望你看完能够对高斯分布有所了解,我们下期见。