EM算法对GMM模型进行参数估计

之前学习的EM算法很抽象，以GMM模型为例，看看EM算法如何通过期望-最大化的迭代过程，进行参数的有效估计的。

高斯混合模型

对于一个一元变量的高斯分布的概率密度函数(pdf)定义为

$\begin{aligned} P(x) & = \frac{1}{\sqrt{2\pi\mu}}e^{-(\frac{x - \mu}{\sigma})^2 / 2} \notag \\ &= \mathcal N(x;\mu, \sigma)\notag \end{aligned}$

拓展到多元高斯分布

$\begin{aligned} P(\boldsymbol x) & = \frac{1}{(2\pi)^{D/2}|\boldsymbol \varSigma|^{1/2}}e^{(\boldsymbol x - \boldsymbol \mu)^T\boldsymbol \varSigma^{-1} (\boldsymbol x - \boldsymbol \mu)} \notag \\ &= \mathcal N(\boldsymbol x;\boldsymbol \mu, \boldsymbol \varSigma)\notag \end{aligned}$

再拓展到高斯混合分布：

$P(\boldsymbol x) = \sum_{m = 1}^Mc_m\mathcal N(\boldsymbol x;\boldsymbol \mu_m, \boldsymbol \varSigma_m)$

其中$m$为高斯数

GMM的参数估计

确定隐变量

对于GMM生成的数据，我们并不知道他来自哪一个分布，反映数据来源这部分信息是未知的，定义$h_i^m$表示第$i$个数据是否来自于第$m$个高斯分量

定义：

$\begin{aligned} \boldsymbol \Theta & = (c_1, c_2, \cdots, c_M; \boldsymbol \mu_1, \boldsymbol \mu_2, \cdots, \boldsymbol \mu_M;\boldsymbol \varSigma_1, \boldsymbol \varSigma_2, \cdots, \boldsymbol \varSigma_M) \\ \boldsymbol Y & = (\boldsymbol y_1, \boldsymbol y_2, \cdots, \boldsymbol y_N) \\ \boldsymbol H & = \begin{pmatrix} h_1^1 & h_1^2 & \cdots & h_1^M \\ h_2^1 & h_2^2 & \cdots & h_2^M \\ \vdots & \vdots & \ddots & \vdots \\ h_N^1 & h_N^2 & \cdots & h_N^M \\ \end{pmatrix} \\ \end{aligned}$

则，完全数据的似然函数为

$\begin{aligned} P(\boldsymbol Y, \boldsymbol H|\boldsymbol \Theta) & = \prod_{n = 1}^NP(\boldsymbol y_n, \boldsymbol H_n|\boldsymbol \Theta) \notag \\ & = \prod_{n = 1}^N\prod_{m = 1}^M \left[c_m \mathcal N(\boldsymbol y_n;\boldsymbol \mu_m, \boldsymbol \varSigma_m)\right]^{h_n^m} \notag \end{aligned}$

确定$Q$函数

在E步，我们要确定$Q$函数，根据$Q$函数定义

$Q(\Theta, \Theta^t) = E_H[\log P(H,Y|\Theta) | Y, \Theta^t]$ $\begin{aligned} \log P(\boldsymbol Y, \boldsymbol H|\boldsymbol \Theta) & = \sum_{n = 1}^N\sum_{m = 1}^M h_n^m \left\{\log c_m + \log \left[ \mathcal N(\boldsymbol y_n;\boldsymbol \mu_m, \boldsymbol \varSigma_m)\right]\right\} \notag \\ \end{aligned}$

可以得到

$Q(\Theta, \Theta^t) = \sum_{m = 1}^M \sum_{n = 1}^N\left\{E_{h_n^m} \cdot \log c_m + E_{h_n^m} \cdot \log \left[ \mathcal N(\boldsymbol y_n;\boldsymbol \mu_m, \boldsymbol \varSigma_m)\right]\right\}$

其中，$E_{h_n^m}$是隐变量在完全数据下的期望

$\begin{aligned} E_{h_n^m} & = E(h_n^m|Y_n, \Theta^t) = P(h_n^m = 1 | Y_n, \Theta^t) \\ & = \frac{c_m \cdot \mathcal N(\boldsymbol y_n;\boldsymbol \mu_m, \boldsymbol \varSigma_m)}{\sum_{m = 1}^{m = M} \mathcal N(\boldsymbol y_n;\boldsymbol \mu_m, \boldsymbol \varSigma_m)} \end{aligned}$

期望最大化

得到$E_{h_n^m}$之后，对$Q$函数求偏导，可以得到混合高斯模型中参量的更新公式

$c_m$
$c_m^{t + 1} = \frac{\sum_{n = 1}^NE_{h_n^m}}{N}$
$\boldsymbol \mu_m^{t + 1}$
$\boldsymbol \mu_m^{t + 1} = \frac{\sum_{n = 1}^NE_{h_n^m} \cdot Y_n}{\sum_{n = 1}^NE_{h_n^m}}$
$\boldsymbol \varSigma_m^{t + 1}$
$\boldsymbol \varSigma_m^{t + 1} = \frac{\sum_{n = 1}^N E_{h_n^m} \cdot (Y_n - \boldsymbol \mu_n)^2}{\sum_{n = 1}^NE_{h_n^m}}$