本文将介绍如何将贝叶斯推断的基本原理应用于估计高斯分布的参数(期望和方差)问题
“本文公式较多较长,如需精读可使用浏览器阅读
”
高斯分布的概率密度函数为:
贝叶斯定理写为:
假设用于进行推断的观察样本是一个向量
其元素是 个独立同分布的从高斯分布中抽取的样本 。
在本节中,我们假设分布的均值 是未知的,而其方差 是已知的。
在下一节中,也将 视为未知。
设样本 的概率密度函数是高斯分布形式:
使用符号 来强调概率密度函数依赖于未知参数 。
由于样本 相互独立,那么似然函数为:
设先验同样为高斯分布,先验分布的概率密度函数写为
即先验服从均值为 、方差为 的高斯分布。
先验用于表达在抽样前,认为未知参数 最有可能等于 并且远离 的值的概率为方差 。
已知先验、似然函数,那么现在可以通过贝叶斯定理完成对后验的推断。
首先给出结论:
其中:
证明:
根据贝叶斯定理,联合分布写为
上式中:
设样本的均值为
所以对于 中的第一项有
应用样本均值的性质:
继续计算:
代入 中:
定义:
最终 写为:
再将视线转回到最初的 计算中:
其中:
值得注意的是 只与 有关,与 无关。
是概率密度函数, 与未知的参数 (这里视 为自变量,在贝叶斯理论中,未知参数有其自身概率)和样本 有关(其中 中含样本 信息)。根据上述函数形式, 可认为是均值为 ,方差为 的高斯分布的概率密度函数。
根据贝叶斯定理:
将上述推导和贝叶斯定理中的各项“对号入座”
因此,后验分布 是期望为 、方差为 的高斯分布。下一步需要确定 是什么。
证毕
“观察后验的期望和方差:
后验期望由样本均值 和先验期望 组成,而且二者为线性关系。样本均值所赋予的权重随着样本数量 的增大而增加,而先验均值所赋予的权重不变。因此,当样本数量 变大时,样本均值将得到越来越多的权重。在极限情况下,所有的权重都来源于样本信息,先验则不再拥有权重,也就是所谓的“贝叶斯淹没”。
上述结果最先由英国统计学家林德利于1965年证明,同时也证明了贝叶斯主观推断的合理性。
”
“对应于上一期文章中的证据 .
”
为完善上述证明,这里确定 是什么,首先给出结论:
其中 是 的全1向量, 是 单位阵
证明:
由上述证明已知
定义
所以上式重写为:
为研究 ,定义 ,那么 重写为:
“此处根据:
与
继续推导
”
“此处根据:
因此:
继续推导
”
对系数项进行处理:
“根据矩阵行列式引理:
上式最终写为:
”
综上所述:
证毕
因此, 的先验预测分布 是多元高斯分布,其均值为 ,协方差矩阵为 ,在这个分布下,一个抽样的 的先验均值为 ,方差为 ,并且与其他抽样的协方差都等于 。这个协方差是正的,因为抽样的 尽管在给定 的条件下是独立的,但它们都共享相同的随机均值参数 。
假设从与之前提取出的样本 相同的高斯分布中独立地抽取了 个新观测 。
向量
的后验预测分布为
其中, 是 的单位矩阵, 是 列的全1向量。
因此, 的多元高斯分布均值为 (其中 是木的后验均值),协方差矩阵为 (其中 是 的后验方差)。
证明:
这个推导的过程与先验预测分布 的推导几乎完全相同。
将后验分布 作为新的先验分布。似然函数 与 相同,因为在给定 的条件下, 与 是独立的。
因此,我们可以进行如下操作
并通过遵循推导 的相同过程来推导出 。主要的区别是需要用后验均值 来替换先验均值 ,并用后验方差 来替换先验方差 。
“关于先验分布、先验预测分布、后验分布、后验预测分布
先验分布(Prior Distribution)和先验预测分布(Prior Predictive Distribution)之间存在一些关键的区别。
先验分布是在观测任何数据之前根据经验或领域知识设定的关于参数的概率分布。它代表了我们对参数的初始认知或信念,提供了参数的先验不确定性信息。
而先验预测分布是在观测任何数据之前,根据先验分布和模型设定生成未来观测数据的概率分布。它结合了先验分布和模型的不确定性,在未观测数据的情况下,提供了对未来观测数据的概率预测(实际上就是上一期文章中所认为的“证据”)。
简而言之,先验分布关注的是参数的不确定性,而先验预测分布关注的是对未来观测数据的概率预测。先验分布用于表达我们在观测数据之前对参数的认知,而先验预测分布用于模拟未来观测数据的概率分布。它们在贝叶斯推断中起着重要的作用,帮助我们在有限数据的情况下做出合理的统计推断和决策。
后验预测分布(Posterior Predictive Distribution)和后验分布(Posterior Distribution)之间有一些关键的区别。
后验分布是根据贝叶斯定理计算得到的,它是在观测到数据后,更新了先验分布过程中的参数估计值。后验分布给出了参数的不确定性,并提供了对参数的更准确估计。
而后验预测分布是在给定观测数据和先验分布的情况下,对未来观测数据的概率分布进行推断。它结合了参数估计和观测数据的不确定性,在给定已观测数据的条件下,提供了对未来观测数据的概率预测。
”
推导过程较为复杂,具体推导过程可参考电子书《INTRODUCTION TO BAYESIAN STATISTICS》第17章:Bayesian Inference for Normal with Unknown Mean and Variance.