对于一般决策树而言,每一次的最优划分,是要找到一个标准,使得在这种标准之下进行的划分获取的信息增益最大,这里的信息增益一般表示划分之后信息熵的增量。在ASR中,决策树的划分标准是获取最大似然提升,在GMM模型中,对于一个状态集合$S$,其似然表示为:
其中
方差的定义为
对于$\gamma_s^t$,有如下两种理解:
- 时刻t的state occupancy,由于一个时刻只能由一个状态生成,所以值为${0, 1}$
- 时刻t的观测由状态s生成的概率
为了计算出$L(S)$,需要得到$\Sigma^{-1}$,由上式:
其中$A_t^{D \times 1} = o_t - \mu(S), B_t^{1 \times D} = (o_t - \mu(S))^T \Sigma^{-1}$
由$B_t^{1 \times D}A_t^{D \times 1} = \text{tri}(A_t^{D \times 1}B_t^{1 \times D})$:
带回$L(S)$:
得证