最近在看一些语音分离的文章,时间旧了,需要做一些总结。这篇文章先说一种传统而有效的方法,NMF(非负矩阵分解)。
将一个矩阵$\mathbf{V}$分解成两个非负矩阵的乘积形式,这种方法就叫非负矩阵分解,数学表达为:
若$\mathbf{V} \in \mathbf{R}^{F \times T}$,那么$\mathbf{W} \in \mathbf{R}^{F \times D}, \mathbf{H} \in \mathbf{R}^{D\times T}$,其中$D$为分解过程的一个超参数,在一些文献中,$\mathbf{W}$被称为dictionary或者basis functions,$\mathbf{H}$被称为atoms或者activations,这种称呼的原因会在后文中解释。
下面将从三个方面认识这个概念:
- 如何得到这种表示
- 这种表示的意义何在
- 在分离任务中如何应用