Improved Neural Machine Translation with a Syntax-Aware Encoder and Decoder

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , ACL17

Motivation在NMT中加入 source 端语法树 Methods同时在 encoder 和 decoder 中都加入 source 语法树信息这里限制语法树为严格的二叉树 Tree-GRU Encoder 叶结点直接使用 sequential encoder 的结果，即 $h_ ...

混合高斯模型 (GMM) 小记

Posted on 2018-09-06 | Edited on 2018-09-23 | In 学习记录

GMM 推导GMM 的基本思想是通过一系列的高斯分布的混合去拟合目标数据分布，本质上是将数据点进行聚类，每一类内部以一个高斯分布进行拟合，于是概率模型可以描述为： P(\mathbf{x}) = \sum_{j=1}^{K} \pi_{k}\mathcal N(\mathbf{x}|\mathbf{ ...

Trainable Greedy Decoding for Neural Machine Translation

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , EMNLP17

Motivation目前的研究主要集中在训练阶段，对解码过程本身的研究仍停留在贪心和 beam search 的阶段。本文提出 trainable greedy decoding 的概念，针对解码目标、翻译模型不唯一的问题，设计了一个通用的解码算法。该算法能在翻译模型已经训练完成的基础上，针对不同 ...

A Convolutional Encoder Model for Neural Machine Translation

Posted on 2018-09-06 | Edited on 2018-09-23 | In PaperNotes , ACL17

Motivation传统方法使用bi-LSTMs来做encoder，受限于RNN的时序关系，而使用CNN可以直接编码整个句子，能够大幅提升速度 RNN NMT传统的基于RNN的解码器，使用前一个隐状态$s_{i}$，上一个输出词$y_{i}$的embedding$g_{i}$，以及位置上下文$c_{ ...

Summary of Capsule

Posted on 2018-09-06 | Edited on 2018-10-12 | In PaperNotes

Hinton团队出品的 Capsule 相关文章有三篇，按时间顺序排列为 Transforming Auto-encoders Dynamic Routing Between Capsules Matrix Capsules with EM Routing Transforming Auto ...

Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes

Motivation目前的 attention 机制建模能力有限，不能做到在解码时重新编码 source 。本文提出了一种替代方法，该方法于跨两个序列的单个2D卷积神经网络。网络的每一层都根据当前的输出序列重新编码源令牌。因此，类似注意力的属性在整个网络中普遍存在。我们的模型在实验中表现出色，优于 ...

A Teacher-Student Framework for Zero-Resource Neural Machine Translation

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , ACL17

MotivationProblem description端到端的NMT在某些特定语言或领域会存在数据匮乏问题。本文定义的任务为：已有一个pivot-target的NMT系统(teacher)，以及source-pivot的平行语料求得一个source-target的NMT系统(student ...

Deep Neural Machine Translation with Linear Associative Unit

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , ACL17

Motivation使用RNN作为encoder和decoder往往会有梯度爆炸／消失问题，优化困难。传统的做法是加residual或者fast-forward connections。本文提出使用Linear Associative Unit (LAU)来减少梯度传播的距离。 MethodGRUG ...

Doubly-Attentive Decoder for Multi-modal Neural Machine Translation

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , ACL17

Motivation多模态NMT系统，在传统面向源语言词的 attention 机制基础上，增加整合了 spatial visual features 的 visual attention 机制，即 Doubly-Attentive MethodsConditional GRU 即 decoder ...

Memory-augmented Neural Machine Translation

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , EMNLP17

MotivationNMT方法倾向于 overfit 到常见词和短语，忽视那些少见的情况。【Zipf’s law （第n常见词出现频率为最常见词的 1/n）】而这些少见的词有时非常重要，比如领域相关的专有名词。作者认为原因并不是表面上的词表大小限制或罕见词的 embedding 效果不好，而是神经 ...