EM算法优化的目标是观测数据对参数$\theta$的对数似然函数,如果不存在隐变量的话,可以直接用最大似然法估计,在隐变量存在的情况下,使用EM算法进行迭代估计。本篇是当时学李航的统计学习方法写下的笔记,可能有理解不正确的地方。
EM算法重要之处在于传统的语音识别框架中,HMM和GMM的参数学习是靠EM完成的。
在$MLE$(最大似然估计)中,最大化目标函数
的参数估计,可以通过下式得到
但是在观测不全面的情况下,比如只观测到了训练数据$Y$,为了优化$(1)$中的目标,还需要知道一些隐变量$X$,否则无法进行全面的估计。对于完全数据$(X, Y)$
上面已经提到,我们的目标是优化$(1)$,则
如果我们现在已知分布参数$\Theta^t$,用它计算$P(Y|\Theta)$在$X$上条件分布的期望
令
EM算法的收敛性
EM算法找出
进行下一轮迭代,收敛性需证明:
由$(8)$,已知:
只需
证明:
证明过程使用了Jesson不等式
$Q$函数
$Q$函数是完全数据的对数似然函数关于在观测数据$Y$和已知参数$\Theta^t$对未观测数据$X$的条件分布$P(X|Y,\Theta^t)$的期望,定义如下:
对$Q$函数展开,写成
对于$P(X|Y,\Theta^t)$,理解成隐变量在模型参数$\Theta^t$和观测$Y$下的概率。
推到这里还是比较抽象,下面继续就EM算法在HMM,GMM中的应用做相关说明,这个应该就比较具象了。