Kaldi中的GMM模型

这部分主要记录的是GMM在kaldi中的实现。

Kaldi中关于高斯混合模型的表示，更新，主要用到下面这四个类，之间的关系如下：

具体表述为：

DiagGMM表示一个GMM模型，AmDiagGMM存储了一个GMM声学模型中的所有GMM，也就是pdf
AccumDiagGmm用来对一个GMM模型进行参数更新，AccumAmDiagGmm中存储了一个AccumDiagGmm向量，可以对整个声学模型进行更新

下面一个一个说明

DiagGMM

对于一个GMM模型，pdf可以表示为

$\prod_{m = 0}^Mc_m\mathcal{N}(\boldsymbol{x}, \boldsymbol{\mu}_m, \boldsymbol{\varSigma}_m) = \prod_{m=0}^M \frac{c_m}{(2\pi)^{D/2}|\boldsymbol{\varSigma}_m|^{1/2}}e^\frac{(\boldsymbol{x}-\boldsymbol{\mu}_m)^T\boldsymbol{\varSigma}_m^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_m)}{2}$

对其中一个GMM分量，我们取log可以得到：

$\log{c_m} - \frac{1}{2}(D\log{2\pi}+\log{\boldsymbol{|\varSigma}_m|}) + \frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_m)^T\boldsymbol{\varSigma}_m^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_m)$

对于原先的指数部分，展开：

$\begin{aligned} \exp & = \frac{1}{2}(\boldsymbol{x}^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{x} - \boldsymbol{x}^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{\mu}_m - \boldsymbol{\mu}_m^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{x} + \boldsymbol{\mu}_m^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{\mu}_m) \\ & = \frac{1}{2}\boldsymbol{\mu}_m^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{\mu}_m + \frac{1}{2}\boldsymbol{x}^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{x} - \boldsymbol{\mu}_m^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{x} \end{aligned}$

DiagGMM中gconst_，weights_，inv_vars_，means_invvars_依次存放的值如下：

$\log{c_m} - \frac{1}{2}(D\log{2\pi}+\log{\boldsymbol{|\varSigma}_m|}-\boldsymbol{\mu}_m^T\boldsymbol{\varSigma}_m^{-1}\boldsymbol{\mu}_m) \\ c_m \\ \boldsymbol{\varSigma}_m^{-1} \\ \boldsymbol{\mu}_m^T \boldsymbol{\varSigma}_m^{-1}$

在给定$\boldsymbol{x}$时，计算一个分量的loglikelihood由下式给出

$- \text{gconst_} + \text{means_invvars_} \cdot \boldsymbol{x} - \frac{1}{2} \cdot \text{inv_vars_} \cdot \boldsymbol{x}^2$

由此看来，DiagGMM的作用就是表示一个最基本的GMM模型，给出一个观测，可以给出一个各个GMM分量观测概率(比如在函数LogLikelihoods的作用，可以得到一个观测的后验向量)。对于这单个GMM模型的更新，需要记录EM算法中的一些过程量，这个依靠AccumDiagGmm完成。

AccumDiagGmm

结合EM算法，要更新GMM模型中的$(c_m, \mu_m, \varSigma_m)$，必须首先得到隐变量在完全数据下的期望$E_{H_n^m}$：

$E_{H_n^m} = \frac{c_m \cdot \mathcal{N(\boldsymbol{x}_n;\boldsymbol{\mu}_m, \boldsymbol{\varSigma}_m})}{\sum_{m = 0}^M\mathcal{N(\boldsymbol{x}_n;\boldsymbol{\mu}_m, \boldsymbol{\varSigma}_m})} = \frac{P_m(\boldsymbol{x}_n;\boldsymbol{\mu}_m, \boldsymbol{\varSigma}_m)}{P(\boldsymbol{x}_n;\boldsymbol{\mu}, \boldsymbol{\varSigma})}$

${P_m} \to {P_m / P}$的映射由函数ApplySoftMax完成，该函数如下

template<typename Real>
Real VectorBase<Real>::ApplySoftMax() {
  Real max = this->Max(), sum = 0.0;
  for (MatrixIndexT i = 0; i < dim_; i++) {
    sum += (data_[i] = Exp(data_[i] - max));
  }
  this->Scale(1.0 / sum);
  return max + Log(sum);
}

这个函数的功能如下：

$\begin{aligned} \{P_m\} & \leftarrow \{e^{P_m - P_{max}}\} \\ \text{sum} & \leftarrow \sum_{m = 0}^MP_m=\frac{1}{e^{P_{max}}}\sum_{m = 0}^Me^{P_m} \\ \{P_m\} & \leftarrow \{\frac{P_m}{\text{sum}}\} = \{\frac{e^{P_{max}}}{\sum_{m = 0}^Me^{P_m}} \cdot \frac{e^{P_m}}{e^{P_{max}}}\} = \{\frac{e^{P_m}}{\sum_{m = 0}^Me^{P_m}}\} \\ \text{return} & \; \log\sum_{m = 0}^Me^{P_m} \end{aligned}$

由于实际参与运算的${P_m}$实际上都是取过log的，所以，ApplySoftMax完成了${P_m} \to {P_m / P}$映射功能，表示如下：

$\{\log P_m\} \xrightarrow{\text{softmax}} \{E_{H_n^m}\}$

下面把AccumDiagGmm中的三个变量和EM算法中的更新参数结合起来

1
2
3

Vector<double> occupancy_;
Matrix<double> mean_accumulator_;
Matrix<double> variance_accumulator_;

以上三个变量的对应关系如下：

$\begin{aligned} \mathcal{O}_m & = \sum_{n = 0}^NE_{H_n^m} \\ \mathcal{M}_m(M \times D) & = \sum_{n = 0}^NE_{H_n^m} \cdot X_n \\ \mathcal{V}_m(M \times D) & = \sum_{n = 0}^NE_{H_n^m} \cdot X_n \cdot X_n \end{aligned}$

以上过程量$\mathcal{O}, \mathcal{M}, \mathcal{V} $在gmm-acc-stats-ali中完成积累，在gmm-est中完成更新。
结合EM算法中更新公式，可以得到：

$\begin{aligned} c_m & = \frac{\mathcal{O}_m}{\sum_{m = 0}^M \mathcal{O}_m} \\ \boldsymbol{\mu}_m & = \frac{\mathcal{M}_m}{\sum_{m = 0}^M \mathcal{O}_m} \\ \boldsymbol{\varSigma}_m & = \frac{\mathcal{V}_m}{\sum_{m = 0}^M \mathcal{O}_m} - \boldsymbol{\mu}_m^2 \end{aligned}$

kaldi中这部分还进行了GMM高斯数的自动调整，即merge和split操作。