之前学习的EM算法很抽象,以GMM模型为例,看看EM算法如何通过期望-最大化的迭代过程,进行参数的有效估计的。
高斯混合模型
对于一个一元变量的高斯分布的概率密度函数(pdf)定义为
拓展到多元高斯分布
再拓展到高斯混合分布:
其中$m$为高斯数
GMM的参数估计
确定隐变量
对于GMM生成的数据,我们并不知道他来自哪一个分布,反映数据来源这部分信息是未知的,定义$h_i^m$表示第$i$个数据是否来自于第$m$个高斯分量
定义:
则,完全数据的似然函数为
确定$Q$函数
在E步,我们要确定$Q$函数,根据$Q$函数定义
可以得到
其中,$E_{h_n^m}$是隐变量在完全数据下的期望
期望最大化
得到$E_{h_n^m}$之后,对$Q$函数求偏导,可以得到混合高斯模型中参量的更新公式
$c_m$
$\boldsymbol \mu_m^{t + 1}$
$\boldsymbol \varSigma_m^{t + 1}$