Summary of NMT Papers

文章统计

会议	文章数
ACL17	14
EMNLP17	10

编码解码框架的改进

这一类文章主要瞄准的问题是在当时最新的网络架构RNNsearch的基础上，针对其训练需要时间长、效率差、优化困难等问题，提出的一系列解决方案。

ACL17：

A Convolutional Encoder Model for Neural Machine Translation

这篇文章提出，能够直接使用CNN来编码整个句子，克服了RNN必须严格遵循时间顺序的问题，能够并行计算，使得编码速度大幅提升。
Deep Neural Machine Translation with Linear Associative Unit

这篇文章提出了新的RNN单元LAU，在普通的GRU上增加了一个 input 门，直接控制输入的信息，有些类似于 RNN cell 层面的 residual 和 fast-forward connections，期望可以减缓梯度消失问题，以构建更深层的翻译网络。文章中使用 LAU 作为基本单元构建的 RNNsearch 架构，取得了 SOTA 的效果。
Neural Machine Translation via Binary Code Prediction

这篇文章提出使用 binary code 而非 one hot 来编码单词，从而减少框架最后的输出层的计算量，并能达到时间和空间的高效性。

EMNLP17：

Towards Decoding as Continuous Optimisation in Neural Machine Translation

这篇文章聚焦于解码过程，将原来的解码到 one-hot 向量的离散优化问题转化为解码到 simplex 向量的连续优化问题，分别比较了两种梯度下降方法 EG 和 SGD 对这一优化问题的效果。
Trainable Greedy Decoding for Neural Machine Translation

这篇文章同样针对解码问题，利用了RL的思想，设计了一个可以在解码的 hidden state 上增加扰动作为 action 的 agent，以扰动后的解码目标作为反馈值进行训练。这个算法是 model-free 的，并且与以往将输出单词作为 action 的RL方法思路不同。

arXiv：

Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

这篇文章提出了一种替代 encoder-decoder 的方法，这种方法依赖于跨越两个序列的 masked 2D CNN。在网络每一层都会根据已有的预测序列对源序列进行重新编码，因此类似注意力机制适用于整个网络（所以叫 Pervasive）。该模型基本达到目前的 SOTA 效果，并且模型设计上简单且参数较少。文章新意有，行文似乎不太好。

引入知识信息

NMT目前仅将机器翻译当作简单的源语言词序列到目标语言词序列之间的转换任务，考虑的基本只有词层面的特征。这一类文章希望通过引入语言学知识或其他以前在SMT中适用的经验，作为模型的额外参考信息，从而提升翻译质量。这些模型有的修改了 RNNsearch 的框架，有的则是在训练目标上做文章。他们大部分都着重提到了对 long dependency 问题的解决。

ACL17:

Chunk-based Decoder for Neural Machine Translation

这篇文章希望在解码时，在句子和单词之间增加了一个 Chunk（词组）级别，先由源语言信息生成 Chunk 序列，再由每一个 Chunk 生成单词序列。这一方法在面对词序灵活的语言（如日语）时取得了非常好的效果。
Improved Neural Machine Translation with a Syntax-Aware Encoder and Decoder

这篇文章在编码和解码时，都考虑了 source 端句子的句法树信息。在编码时，基于 Tree-GRU Encoder 自下而上编码的局限性提出了 Bidirectional Tree Encoder，能够使得句法树每层结点都能在编码时同时考虑祖先和孩子的信息。解码时，对 attention 的计算略作修改，加入了 coverage vector，从而减少 over-translation 的问题。
Modeling Source Syntax for Neural Machine Translation

这篇文章在编码时结合了 source 端句子的句法树信息。与上一篇的区别在于，本文中同时考虑了句法树的结构和结点的 Label 信息，将解析树压缩成一个 Label 序列，并结合单词序列尝试了三种不同的混合编码方式，取得了很好的效果。
Sequence-to-Dependency Neural Machine Translation

这篇文章在解码时结合了 target 端句子的句法树信息。文中将 target 端的句法分析过程建模为一系列 transition actions 的序列，通过同时对单词序列和 transition actions 进行预测，从而做到一边翻译一边对句子进行分析，并能够根据分析的结果来指导后面的翻译。
Incorporating Word Reordering Knowledge into Attention-based Neural Machine Translation

本论文重点关注翻译当中源语言句子与目标语言句子之间的文本对齐问题。对于错误对齐问题，我们可以在 attention 机制中结合 Word Reordering 的知识。这里设计了三种 Distort model，分别接受源端上下文、目标端上下文以及 Decoder 的隐状态，用以辅助 attention 对齐，取得了很好的效果。
Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search

这篇文章提出了一个扩展了传统的beam search的算法Grid Beam Search(GBS)。这个算法能够包含一些预先定义好的词法限制。实验证实GBS能够对翻译质量带来很大的提升。
Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization

这篇文章提出了一个新颖的在NMT中结合先验知识的框架。基本思想是通过在训练目标中添加模型的后验分布以及加入先验知识的分布之间的KL散度约束。文中列举了很多在SMT中常用的先验知识的例子，证明了该框架对模型细节透明。

EMNLP17：

Memory-augmented Neural Machine Translation

这篇文章提出了一个增加了 Memory 模块的 NMT 框架。这里的 Memory 被设计成了类似辞典的结构，通过类似 attention 机制整合到预测阶段，可以辅助罕见词及OOV词的翻译。我认为这篇文章的 Memory 的思想是加入先验知识的很好尝试方向。

扩展任务

这些文章没有局限于之前的基于大量平行语料的翻译问题研究，而是将问题扩展到了无监督学习、少语料甚至无语料语言翻译以及多模态翻译等问题上，并作出了很多有意思的工作。

ACL17：

A Teacher-Student Framework for Zero-Resource Neural Machine Translation

这篇文章针对的问题为对A，B，C语言，已有A与B语言之间的平行语料和B与C语言的一个训练好的翻译系统（Teacher），求一个A到C的翻译系统（Student）。本文基于的假设是：平行语句在生成第三种语言的一个句子时应该具有相近的概率，并分别给出了句子层面和词层面应用该假设得到的训练目标。实验表明该假设在统计学上是正确的，并且训练出来的系统具有较好的效果。
Doubly-Attentive Decoder for Multi-modal Neural Machine Translation

这篇文章在原来的 attention-based NMT 系统的基础上，增加了图片信息，并将图片信息作为 context 结合到 attention 的计算中去，因此称这种同时考虑了图片和文本 context 的 decoder 为 Doubly-Attentive Decoder。

EMNLP17：

Incorporating Global Visual Features into Attention-Based Neural Machine Translation

这篇文章

模型探究与理解

NMT模型的可解释性一直是研究者们追求的方向之一。在这一部分中，我们可以看到一些对模型解释性进行探究的文章。

ACL17：

Visualizing and Understanding Neural Machine Translation

这篇文章通过应用 layer-wise relevance propagation（LRP）来对NMT系统进行可视化分析和理解。
What do Neural Machine Translation Models Learn about Morphology?

这篇文章通过将训练好的NMT系统的不同部分作为特征提取器，用提取到的特征训练其他词法学任务的分类器，从而探究了NMT架构中不同部分之间的分工合作，以及框架哪些部分负责 word structure 的提取。