Overview of E2E Methods

本篇Blog虽然看起来像极了新闻稿，但实际上只是自己想做一个E2E的梳理（顺便交了某课程大作业），毕竟这玩意最近这么火。有一部分论文自己只看个大概，说法未必准确，各位看观小心~。

语音识别（Automatic Speech Recognition，ASR）是要完成输入音频的采样序列到字符序列的映射任务。传统识别模块主要包含声学模型，字典，语言模型三个部分，其中声学模型用于将输入特征转化为声学单元的后验概率，字典用于表示声学单元序列到字符的映射关系，而语言模型则用于表示字符上下文之间的条件概率。由于声学模型的训练需要预知声学单元和输入特征之间的对齐信息，而常见的声学单元，比如CD-state，CD-phone等的时间对齐信息无法直接从抄本中的字符序列中获知。因此，DNN等声学模型的训练需要以传统的HMM-GMM模型进行启动引导，获得帧级别的状态标签，这一步操作称为对齐。也正是由于CD-state之类的建模单元颗粒度太小，无法直接转化成字符级别的输出，因此，需要融合字典，语言模型等信息，信息融合在声学解码器中进行。

因为抄本的长度往往小于特征序列的长度，所以，实现特征到序列直接映射的核心在于如何处理这种对齐关系。传统的NN-HMM框架正是无法进行这种不等长的序列映射，因此才需要对齐和解码。很显然，我们期望的是一种更加自然的模型结构，可以直接以抄本作为label完成训练，直接以字/词作为输出单元，从而简化训练和解码流程。2012年之后，随着传统声学建模技术的逐渐成熟，国内外学者和研究机构开始基于语音识别这种序列映射的特性，借鉴图像，机器翻译领域的一些成功案例，开始尝试端到端（End-to-End，E2E）的建模方法。

为了保持脉络清晰，本部分会顺着时间线介绍三种比较成熟的端到端的建模方法：CTC^[13][14]（Connectionist Temporal Classification）RNN Transducer^[12]，Attention^[5][9][10]机制及其在声学建模中的应用，中间会穿插一些分析和讨论，帮助理清思路。有些文章中会以Sequence to Sequence（Seq2Seq）的概念表达声学建模中端到端的含义，在这里统一称为E2E。需要注意一点，本节所述方法的输入均为声学特征，并非直接基于原始采样信号（raw waveform）建模。

CTC

最早被提出用于E2E训练的是Alex Graves在2006年提出的CTC准则^[13]，当时用于处理一些输入和标签不等长的问题中，比如手写识别，语音识别等等。本质上说，CTC只是一个定义在序列上的损失函数，而非一种新的网络模型。传统声学模型是一个分类器，其损失函数交叉熵是一个定义在帧级别上的度量函数，最大化当前标签被分类正确的概率，并不能很好的反映网络输出的序列特性，而CTC将句子级别的对齐信息融合在了损失函数中，通过最大化所有和和抄本对齐序列的概率和，实现E2E的模型训练，这种方式由于包含了显式的对齐计算，后来也常常称之为硬对齐（hard-alignment）。

对齐路径$\mathbf{\pi}$和抄本$\mathbf{y}$和是多对一关系，为了更好的描述这种关系，Graves额外引入了blank标签$\epsilon$的概念，用于隔断不同字符，比如在$T = 5$的约束下，抄本${a,b}$的对齐序列可以是${a\epsilon b\epsilon \epsilon}$，${a\epsilon\epsilon \epsilon b}$，${\epsilon ab\epsilon \epsilon}$等等。用函数$\mathcal{F}$描述$\pi \to \mathbf{y}$映射关系为$\mathcal{F}(\pi) = \mathbf{y}$。若定义输入特征序列$\mathbf{x} = \{\mathbf{x}_1, \mathbf{x}_1, \cdots, \mathbf{x}_T\}$，那么CTC损失准则表达为：

$\mathcal{L}_{\text{ctc}}(\mathbf{y}|\mathbf{x}) = \sum_{\pi \in \mathcal{F}^{-1}(\mathbf{y})} P(\pi | \mathbf{x})$

考虑$\pi \in \mathcal{F}^{-1}$的元素呈指数级增长，故在实际中采用动态规划原理，即前向-后向算法计算$\mathcal{L}_{\text{ctc}}$。为了计算$P(\pi | \mathbf{x})$，Graves引入假设：在不同时刻，模型的输出概率相互独立，那么根据条件概率公式，有

$P(\pi|\mathbf{x}) = \prod_{t = 1}^T P(y_{\pi}^t | \mathbf{x}_{1 \cdots t})$

其中$P(y_{\pi}^t | \mathbf{x}_{1 \cdots t})$用RNN的输出层概率表示，需要注意的是，由于引入了blank符号$\epsilon$，实际网络建模中输出层节点需要在原建模单元个数之上加1，比如在TIMIT数据上，61个音素单元的输出层个数应为62。网络训练时，用梯度下降法最小化$-\mathcal{L}_{\text{ctc}}$。2006年Graves提出CTC时，用BLSTM建模获得了30.51%的PER，超越了传统的BLSTM-HMM（33.84%）方法。网络收敛时候，各个符号之间被blank隔断，输出概率分布呈现尖峰特性，因此，通过简单的greedy-search或者beam-search方法即可完成序列解码。

不过，CTC最大的诟病在于Graves为了计算$P(\pi|\mathbf{x})$引入的假设，因为无论从声学特性还是语言模型上说，相邻时刻的输出概率往往是极大相关的，因此，后续的其他方法往往会消除这样的假设。

CTC based System

CTC被提出之后产生了很多成功的应用案例，结合不断改进的RNN^[27]，CNN^[32]用于声学建模的思路不断出现，比较典型的算是百度硅谷研究院的Deep Speech^[2][16]系列。

Deep Speech 1，2是均以CTC准则构建的端到端识别系统。2014年，Deep Speech 1公布，主体上沿用Graves等人的建模思路，但是在声学模型上做了简化。前三层为使用clipped ReLU（$g(z) = \min \{ \max \{0, z\}, 20 \}$）作为激活函数的全连接网络，第四层采用双向RNN，第五层为全连接层，接受双向RNN的输出，输出层使用CTC作为误差准则。配合数据抖动和dropout等正则化优化技巧，Deep Speech 1最终在SWB+FSH 2000h数据集上超越了当时传统方法最好的开源结果。

2014年到2016年之间，CNN^[1][26]以及BatchNorm^[1]等正则化方法相继被引入声学建模中，并取得了很好的结果。Deep Speech 2在2016年公开，和DS1相比，声学模型中加入了如下新的特性：

引入卷积层用于特征抽取，替代之前的全连接层，在时域和频域的二维卷积可以明显增强声学模型在噪声环境下的识别鲁棒性
RNN部分采用sequence-wise的BatchNorm，用于加速网络收敛，并且发现，随着网络层数的加深，对收敛度的提升越好
使用Cho等人在2014年提出的GRU代替普通RNN，相比LSTM，GRU^[8]可以获得相近的结果，同时计算复杂度更小
在GRU层之上加入lookahead卷积层，用于获取一些future context。

DS2在普通话和英语上同时取得了可观的结果，在普通话带噪测试集上，使用了BatchNorm和2D卷积的模型相比浅层的RNN在WER上有了48%的相对提升，并且在voice query数据上超越了人类水平。

Google在2017年提出的Neural Speech Recognizer^[29]也是以CTC为准则的识别系统。NSR采用双向LSTM建模，在超过12万小时的数据上进行训练，对比了CD-phone和word两种建模单元，在YouTube转写任务上，以word作为建模单元的NSR超越了传统CD-phone的ASR效果。

在开源社区CTC也相当活跃，Miao等人基于Kaldi语音识别工具包开源了eesen^[20]，满足了CTC和传统声学解码器的耦合，Baidu开源了社区效率最高的CTC实现warp-ctc，在同等的计算量下，其耗时远低于其他工具包，Facebook研究院开源了他们基于CTC的端到端识别工具wav2letter^[11]，CUDNN7.0中也增加了CTC的API接口。此外，受到CTC的启发，Dan等人提出的Lattice Free MMI（LF-MMI，chain model）^[22]获得巨大成功，一方面降低了区分性训练的耗时，另一方面可以获得8%的相对提升，被誉为声学模型近几年最大的创新。

RNN Transducer

为了进一步提升CTC的表现，Graves后来提出了RNN Transducer^[12]结构，用于修正CTC在计算序列概率中的假设缺陷。思路是保留原CTC声学模型（称为转录网络）的同时，引入一个额外的网络，称为为预测网络，用于对抄本序列的输出进行预测，起到类似语言模型的作用。在$t$时刻，当前符号为$u$时，网络输出符号$k$的概率表示为：

$P(k | t, u) = \frac{\exp(\mathbf{f}_t^k + \mathbf{g}_u^k)}{\sum_{k'} \exp(\mathbf{f}_t^{k'} + \mathbf{g}_u^{k'})}$

其中$\mathbf{f}_t,\mathbf{g}_u$表示转录和预测网络的输出概率向量。训练时，预测网络的输入源自抄本序列，解码时，预测网络的输入来自转录网络的输出，输入采用one-hot编码的形式，因此，在RNN Transducer中，$P(\pi|\mathbf{x})$的计算公式变为：

$P(\pi | \mathbf{x}) = \prod_{t=1}^T P(y_{\pi}^t | \mathbf{x}_{1 \cdots t}, \pi_{\{1,\cdots,t\}})$

从这里可以看出，由于$t$时刻的输出$y{\pi}^t$会作为预测网络的输入，因此，$t + 1$时刻的输出$y{\pi}^{t+1}$不再和$y_{\pi}^t$相互独立，这种条件更加符合语音上下文之间的相关性。实验中，一层128节点的预测网络和两层128节点的转录网络在TIMIT上取得了23.2%的PER，相比纯转录网络（25.5%），降低了2.3%个百分点。

在2013年，Graves用多层LSTM建模^[15]，并用CTC网络的权值初始化转录网络，在TIMIT上取得了17.7%的PER，成为当时最好的结果，而同结构的CTC结果为18.6%。研究同时表明：

LSTM的建模能力远远超越普通RNN
网络走向深度的收益好于扩展宽度
双向网络的建模能力胜于单向网络

RT的问题在于，转录网络和预测网络除了通过$P(k|u, t)$进行信息融合之外，并不相互依赖，因此，二者较为独立。其次，RT依旧保持了CTC设计中硬对齐部分，用于计算损失函数，在这点上计算复杂度较高，本质上说，属于对CTC的改进。

Encoder-Decoder Structure

在提Attention机制之前需要先说一下Encoder-Decoder结构。Encoder-Decoder是Cho等人在2014年提出的一种包含两个RNN的网络结构^[8]，最初用于机器翻译，也正是在这篇论文中，他们提出了LSTM的简化版本GRU（Gated Recurrent Unit）。

在E-D结构中，编码器用于将输入的变长序列$\mathbf{x}$编码成定长表示$\mathbf{c}$，而解码器用于将此定长表示解码成另一种符号序列$\mathbf{y}$，两个网络做联合训练，最大化条件概率$P(\mathbf{y} | \mathbf{x})$，以此完成序列映射。一般的，$\mathbf{c}$用encoder扫描一遍$\mathbf{x}$之后的hidden state表示。对于decoder，在生成$y_t$时，接受上一时刻的输出$y_{t - 1}$和$\mathbf{c}$作为输入，hidden state的更新表示为：

$\mathbf{s}_t = \mathcal{R}(\mathbf{s}_{t - 1}, y_{t - 1}, \mathbf{c})$

在生成$t$时刻生成$y_t$的条件概率$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x})$表示为：

$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x}) = \mathcal{G}(\mathbf{s}_t, y_{t - 1}, \mathbf{c})$

其中$\mathcal{G}$可以用一个带有softmax输出层的MLP表示。在E-D结构下，decoder生成序列$\mathbf{y}$的条件概率可以根据条件概率公式得到：

$P(\mathbf{y} | \mathbf{x}) = \prod_t P(y_t |y_{<t}, \mathbf{x}) = \prod_{t} P(y_t | y_{1 \cdots (t - 1)}, \mathbf{c})$

通过引入编码器，使得decoder的输出不再直接依赖于输入$\mathbf{x}$，生成序列的长度也只取决于解码的步数，这是这种结构能够很好的处理变长序列映射问题的关键。但是这种结构会带来两个很明显的问题：

由于RNN的记忆遗忘问题，实际中编码器将输入序列全部编码成定长表示会造成表达能力不足以及信息丢失等问题，这种问题往往随着输入序列的增长而愈加明显。
即使全部信息被编码进定长表示，在解码阶段，未必每一步都需要全部的输入信息，比如关联最大的可能仅仅和输入序列对齐部分的上下文区间。

正是出于这种考虑，一种称为attention机制的encoder-decoder结构被提出。这种结构摒弃了编码器输出定长编码的限制，将编码器hidden state的加权和输入decoder，权重由网络自身学习得到。这种结构一来避免了长时输入造成的信息丢失，同时允许decoder自行学习注意的内容，更加符合实际。attention最早被应用于机器翻译^[3]，物体追踪，图像主题生成，后来被Cho等人用于语音识别^[9][10]，并取得成功。

Attention Mechanism

在引入attention机制的encoder-decoder框架中，encoder用于将输入特征$\mathbf{x}_{1 \cdots T}$转换为高层次的表示特征$\mathbf{h}_{1 \cdots U}$，decoder用于根据表示特征预测序列单元$\mathbf{y}_t$，编码器和解码器之间通过attention机制关联。attention的作用是根据decoder的状态$\mathbf{s}_t$，结合$\mathbf{h}$计算attention context $\mathbf{c}_t$，帮助解码器预测输出$\mathbf{y}_t$。

现在对上述过程进行符号化，不同于纯粹的E-D结构，在生成$t$时刻生成$y_t$的条件概率$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x})$在引入attention机制之后变为：

$P(y_t | y_{1 \cdots (t - 1)}, \mathbf{x}) = \mathcal{G}(\mathbf{s}_{i}, y_{t - 1}, \mathbf{c}_i)$

attention context $\mathbf{c}_i$为表示特征$\mathbf{h}_{1 \cdots U}$的加权和，用$\alpha_{ij}$表示权值，$\mathbf{c}_i = \sum_{j = 1}^U \alpha_{ij} \mathbf{h}_j$，这里引入的$\alpha_i$就是attention weight，其计算过程可以统一表示为：

$\begin{align} e_{ij} & = \mathcal{A}(\mathbf{s}_i, \mathbf{h}_j, \alpha_{i -1}) \\ \alpha_i &= \text{softmax}(e_i) \end{align}$

$e_{ij}$称为scaler energy，不同的attention其计算过程不同。下面介绍几种常见的attention类型：

MLP attention^[9]。
用一个多层感知机（线性网络）表示$\mathcal{A}$的计算过程称为MLP attention，ASR中最早被Cho等人在其研究中使用，输入为向量$\mathbf{s}_i$和$\mathbf{h}_j$的拼接。
Tanh attention^[10]。
Tanh attention又称为content-based attention，最早在机器翻译中使用，Cho等人在2015年提出的ARSG（Attention-based Recurrent Sequence Generator）中借鉴了这种计算方式，提出一种location-aware的计算方法，考虑了上一步生成的attention权值信息$\alpha_{i - 1}$，计算表示如下：
$e_{ij} = w^\top \tanh(\phi(\mathbf{s}_i) + \psi(\mathbf{h}_j) + \theta(\mathbf{f}_{ij}))$
其中$w$为权值向量，$\phi(\cdot), \psi(\cdot), \theta(\cdot)$均为MLP网络。$\mathbf{f}_i$为一个矩阵，用$\alpha_{i - 1}$和矩阵$\mathbf{F}$卷积得到：
$\mathbf{f}_i = \mathbf{F} * \alpha_{i - 1}$
Dot attention^[5]。
Dot attention是Google Brain团队在LAS（Listen Attend and Spell）结构中使用的计算方法，通过两个MLP网络$\phi(\cdot), \psi(\cdot)$将$\mathbf{s}_i$和$\mathbf{h}_j$embedding成等长向量，二者做点积：
$e_{ij} = \langle \phi(\mathbf{s}_i), \psi(\mathbf{h}_j) \rangle$
实验表明，在Google voice search traffic任务上，dot-attention的表现比tanh-attention要好。
Multi-Head attention^[30]。
前面的几种attention计算的共同点在于用$\mathbf{h}$的加权平均作为attention context，这种方式称为single-head attention，scaler energy依赖单一的$\mathbf{s}_i$。multi-head attention（MHA）的机制是Google Brain团队在2017年提出的概念，首先被应用于机器翻译（NMT）。它将$\mathbf{s}_i$做投影变换，产生$M$个embedding，基于此计算出$M$个scaler energy，彼此之间分布不同，最后将各自的attention context拼接成最终的context向量。这种方式有助于减少context对encoder信息的依赖，同时由于每支head可以从$\mathbf{h}$中提取不同的信息，系统鲁棒性更强。借助上面的符号定义，其计算过程可以表示为：
$\begin{align} \mathbf{c}_i &= \mathcal{A}(\mathbf{W}_i \mathbf{s}_i, \mathbf{h}) \\ \mathbf{c} &=\text{concat}(\mathbf{c}_{1 \cdots M}) \mathbf{W}_o \end{align}$
其中$\mathbf{W}_i$表示变换矩阵，$\mathbf{W}_o$用于减少向量拼接之后的维度。

Attention机制在机器翻译中取得成功之后，被引入语音识别，处理声学特征到抄本之间的序列建模。从2015年开始，Attention based方法逐渐成为研究热点。

Attention based Models

2014年，attention机制在TIMIT上最早的尝试取得了18.61%的PER^[9]。随后，Cho等人提出了ARSG（Attention-based Recurrent Sequence Generator）^[10]，采用location-aware的attention替换早期的MLP-attention，在TIMIT数据集上获得了17.6%的PER（Phone Error Rate），这一结果已经超越了2013年RNN Transducer的17.7%^[15]。

谷歌同年提出的LAS（Listen Attend and Spell）^[5]整体与ARSG类似，不过更加结构化。LAS中encoder称为Listener，decoder称为AttendAndSpeller。Listener是一个金字塔结构的BLSTM-encoder，这种形式可以有效减少表示特征的输出步长，加速网络收敛。Speller是一个两层的LSTM，与ARSG不同的是，attention context采用dot attention计算。LAS的评估在Google voice search任务上进行，和传统方法最好的结果（CLDNN 8.0%）相比，配合语言模型重打分（LM rescore），取得10.3%的WER。

Baidu的Deep Speech 3没有单独的进行模型设计^[4]，而是从数据，编码器结构，解码配置等方面详细对比了CTC，RNN Transducer和 Attention based方法。在不借助语言模型辅助的条件下，在switchboard数据集上分别取得9.0%，8.5%和8.6%的WER，在更加真实的DeepSpeech数据上，三者的最优表现则较为一致。

Attention vs CTC

相比CTC，attention机制更希望attention layer自身学习到对齐信息，用于辅助decoder进行序列预测。训练时的损失度量依旧是传统声学建模的交叉熵，因此，相比CTC具有简洁性。这种方法称为软对齐（soft-alignment）。$\alpha$表示网络学习到的对齐信息，网络收敛之后，其分布往往比较尖锐。

而CTC则是通过显示的计算对齐信息，用于损失函数设计实现端到端的训练，计算复杂度较高。做推断时，输出序列的时序长度和输入一致，而E-D框架中，decoder的输出则没有这一限制，理论上可能是任意长度。对于RNN Transducer，转录网络和预测网络之间仅仅通过输出层做信息耦合（做硬对齐的损失计算），而网络之间的状态信息也没有交互，在这点上没有E-D框架耦合性高。

解码方面，由于CTC的输出分布呈现尖峰特性，大部分时长被blank符号填充，因此，虽然没有在学习过程中学习语言建模，但是也可以采用greedy/beam search的方法进行解码。如果采用细粒度的建模方法，比如CI-phone，也可以使用声学解码器进行解码。

CTC相比attention更易于实现online解码，只需要将声学模型替换为单向RNN（LSTM \& GRU etc.）。而E-D框架中，由于encoder需要扫描一遍输入序列，因此，实时性较差。关于如何进行online的改进，陆续有学者提出了自己的方案进行相关改进。下一部分会介绍其中一种思路。

Online Attention

上面提到的attention也常常被称为full-sequence attention，因为在计算scaler energy时需要利用到整个表示特征$\mathbf{h}_{1\cdots U}$。由此带来的问题是，decoder需要等待encoder完成全部编码表示才能工作，也就意味着decoder无法在线/流式工作，这极大的限制了其在语音交互中的应用。因此，如何进行在线的改善attention模型成为拓展其应用场景必须解决的问题。

Google Brain在2016年提出的Netural Transducer（NT）^[18]将attention计算的context限制在事先划分的语音段中，假设段长$W$，则$T$帧的数据可以划分为$B = [\frac{T}{W}]$段。在每个块中，NT产生$k$个输出符号，并且强制最后一个符号为$e$，表示该语音段中已经产生完所有输出。根据以上定义，第$b$段语音对应的输出序列$y_{e_b -1 \cdots e_b}$产生的条件概率为：

$P(y_{e_b - 1 \cdots e_b} | \mathbf{x}_{1 \cdots bW}) = \prod_{i = e_{b - 1} + 1}^{e_b} P(y_m | \mathbf{x}_{1 \cdots bW}, y_{1 \cdots (i-1)})$

其中$\mathbf{x}_{1 \cdots bW}$和$y_{1 \cdots (i-1)}$分别表示已经观测到的特征和NT的当前输出序列。而scale energy和attention context的计算仅仅只在当前语音段的表示特征$\mathbf{h}_{(b-1)W \cdots bW}$上进行，即$\mathbf{c}_i = \sum_{j = 1}^W \alpha{ij} \mathbf{h}{(b - 1)W + j}$，其中：

$\alpha_i = \mathcal{A}(\mathbf{s}_i, \mathbf{h}_{(b - 1)W + j})$

关于attend的具体实现，论文中提出了三种思路，除了LAS中的dot attention之外，还有MLP attention和LSTM attention，即用一个多层感知机或者LSTM网络来计算scale energy。通过调节$W$的值，可以发现LSTM attention的结果更加连贯，配合一个三层的BLSTM-encoder，在TIMIT上可以取得18.2%的PER，和full-sequence attention 17.6%相比，这个结果是可观的。后来文献中常将NT实现online的方法称为limited-sequence attention。

在ARSG中，作者也分析了full-sequence attention容易受到注意力丢失问题的影响，在长句子上的表现普遍不佳。NT中划分语音段的方式帮助模型中的attention前向移动，因此，对此问题的敏感有所降低。但是在更加复杂的任务上，比如Google的voice search，流式/在线的Netural Transducer的表现不如离线的LAS，因此，Google的speech team将NT的思路应用于LAS中，并在原先LAS的设计上做了一些优化工作^[7][25]，主要包括如下几点：

向前拓展注意力计算的context，即回顾若干（$k$）个语音段，同时向后拓展5帧，即将$\mathbf{h}_{(b-1)W + 1, \cdots, bW} $由$\text{Listen}(\mathbf{x}_{(b-1)W + 1, \cdots, bW})$修正为$\text{Listen}(\mathbf{x}_{(b-k)W + 1, \cdots, bW + 5})$，通过引入少量的延时，重复利用之前的历史信息增强了attention信息含量。
使用原先的LAS模型参数初始化LAS-NT。
参照机器翻译中的相关经验，使用字片替代原来的字建模，同时在解码过程中融合一个语言模型。

实验结果表明，在Google voice search traffic任务，1,2的改进可以使得single-head NT获得和single-head LAS相媲美的结果（9.9% vs 9.8%），结合3，multi-head NT取得了和multi-head LAS相同的结果（8.6%）。到此，attention具有了在实际场景中部署的基础。

另外一种online改进的思路则是借鉴CTC中hard-alignment的思路，假设网络的对齐是单调的，即注意力沿着时间轴转移，以Google Brain Raffel^[6][24]等人为代表。目前实际的表现尚不如NT-LAS，Google团队正在进行相关调优工作。

Conclusion

本文从2006年被提出的CTC准则出发，依次介绍了RNN Transducer，encoder-decoder框架三种用于端到端声学建模的方法，同时梳理了三者之间的关系及区别，并参阅了近四年来的相关文献，展示了Google，Baidu等语音团队在端到端方向上的实践思路。事实上，关于E2E的实践还远不止本文所述，比如结合attention的LF-MMI^[21]，基于VDNN（Very Deep Neural Network）^[31]的建模实践，基于CTC准则的encoder-decoder框架^[28]，结合RNN Transducer的attention机制^[23]，CTC attention的联合训练以及CE-CTC的联合训练^[19]等等。整体来说，端到端是语音领域近两年比较火热的一个方向，由于在真实复杂的场景（噪声，混响，多说话人等等）下，其实际的声学鲁棒性尚不能媲美传统方案，因此还有很多难关等待被攻克。

Reference

[1] O. Abdel-Hamid, A.-r. Mohamed, H. Jiang, and G. Penn. Applying convolutional neural networks concepts to hybrid nn-hmm model for speech recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on, pages 4277–4280. IEEE, 2012.
[2] D. Amodei, S. Ananthanarayanan, R. Anubhai, J. Bai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, Q. Cheng, G. Chen, et al. Deep speech 2: End-to-end speech recognition in english and mandarin. In International Conference on Machine Learning, pages 173–182, 2016.
[3] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
[4] E. Battenberg, J. Chen, R. Child, A. Coates, Y. Gaur, Y. Li, H. Liu, S. Satheesh, D. Seetapun, A. Sriram, et al. Exploring neural transducers for end-to-end speech recognition. arXiv preprint arXiv:1707.07413, 2017.
[5] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals. Listen, attend and spell. arxiv preprint. arXiv preprint arXiv:1508.01211, 1(2):3, 2015.
[6] C.-C. Chiu and C. Raffel. Monotonic chunkwise attention. arXiv preprint arXiv:1712.05382, 2017.
[7] C.-C. Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K. Rao, K. Gonina, et al. State-of-the-art speech recognition with sequence-to-sequence models. arXiv preprint arXiv:1712.01769, 2017.
[8] K. Cho, B. Van Merriënboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder- decoder for statistical machine translation. arXiv preprint arXiv:1406.1078, 2014.
[9] J. Chorowski, D. Bahdanau, K. Cho, and Y. Bengio. End-to-end continuous speech recognition using attention-based recurrent nn: First results. arXiv preprint arXiv:1412.1602, 2014.
[10] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio. Attention-based models for speech recognition. In Advances in neural information processing systems, pages 577–585, 2015.
[11] R. Collobert, C. Puhrsch, and G. Synnaeve. Wav2letter: an end-to-end convnet-based speech recognition system. CoRR, abs/1609.03193, 2016.
[12] A. Graves. Sequence transduction with recurrent neural networks. Computer Science, 58(3):235–242, 2012.
[13] A. Graves and F. Gomez. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks. In International Conference on Machine Learning, pages 369–376, 2006.
[14] A. Graves and N. Jaitly. Towards end-to-end speech recognition with recurrent neural networks. In International Conference on Machine Learning, pages 1764–1772, 2014.
[15] A. Graves, A.-r. Mohamed, and G. Hinton. Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee international conference on, pages 6645–6649. IEEE, 2013.
[16] A. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos, E. Elsen, R. Prenger, S. Satheesh, S. Sengupta, A. Coates, et al. Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567, 2014.
[17] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning, pages 448–456, 2015.
[18] N. Jaitly, Q. V. Le, O. Vinyals, I. Sutskever, D. Sus- sillo, and S. Bengio. An online sequence-to-sequence model using partial conditioning. In Advances in Neural Information Processing Systems, pages 5067–5075, 2016.
[19] S. Kim, T. Hori, and S. Watanabe. Joint ctc-attention based end-to-end speech recognition using multi-task learning. In Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on, pages 4835–4839. IEEE, 2017.
[20] Y. Miao, M. Gowayyed, and F. Metze. Eesen: End-to-end speech recognition using deep rnn models and wfst-based decoding. In Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Work- shop on, pages 167–174. IEEE, 2015.
[21] D. Povey, H. Hadian, P. Ghahremani, K. Li, and S. Khudanpur. A time-restricted self-attention layer for asr.
[22] D. Povey, V. Peddinti, D. Galvez, P. Ghahremani, V. Manohar, X. Na, Y. Wang, and S. Khudanpur. Purely sequence-trained neural networks for asr based on lattice-free mmi. In Interspeech, pages 2751–2755, 2016.
[23] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson, and N. Jaitly. A comparison of sequence-to-sequence models for speech recognition. In Proc. Interspeech, pages 939–943, 2017.
[24] C. Raffel, T. Luong, P. J. Liu, R. J. Weiss, and D. Eck. Online and linear-time attention by enforcing monotonic alignments. arXiv preprint arXiv:1704.00784, 2017.
[25] T. N. Sainath, C.-C. Chiu, R. Prabhavalkar, A. Kan- nan, Y. Wu, P. Nguyen, and Z. Chen. Improving the performance of online neural transducer models. arXiv preprint arXiv:1712.01807, 2017.
[26] T. N. Sainath, A.-r. Mohamed, B. Kingsbury, and B. Ramabhadran. Deep convolutional neural networks for lvcsr. In Acoustics, speech and signal process- ing (ICASSP), 2013 IEEE international conference on, pages 8614–8618. IEEE, 2013.
[27] H. Sak, A. Senior, K. Rao, and F. Beaufays. Fast and accurate recurrent neural network acoustic models for speech recognition. arXiv preprint arXiv:1507.06947, 2015.
[28] H. Sak, M. Shannon, K. Rao, and F. Beaufays. Recurrent neural aligner: An encoder-decoder neural net- work model for sequence to sequence mapping. In Proc. of Interspeech, 2017.
[29] H. Soltau, H. Liao, and H. Sak. Neural speech recognizer: Acoustic-to-word lstm model for large vocabulary speech recognition. arXiv preprint arXiv:1610.09975, 2016.
[30] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez. Kaiser, and I. Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010, 2017.
[31] Y. Zhang, W. Chan, and N. Jaitly. Very deep convolutional networks for end-to-end speech recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on, pages 4845– 4849. IEEE, 2017.
[32] Y. Zhang, M. Pezeshki, P. Brakel, S. Zhang, C. L. Y. Bengio, and A. Courville. Towards end-to-end speech recognition with deep convolutional neural networks. arXiv preprint arXiv:1701.02720, 2017.