A Teacher-Student Framework for Zero-Resource Neural Machine Translation

Posted on 2018-09-06 | Edited on 2018-09-21 | In PaperNotes , ACL17

Motivation

Problem description

端到端的NMT在某些特定语言或领域会存在数据匮乏问题。本文定义的任务为：

已有一个pivot-target的NMT系统(teacher)，以及source-pivot的平行语料
求得一个source-target的NMT系统(student)

即解决zero-resource的NMT问题。

Current methods

针对无平行语料的翻译任务，主要有两种方法：

multilingual:

Multilingual的问题在于建模和训练时结合了多种语言，导致模型复杂度相比普通NMT增大
pivot-based:

pivot可以是文本或者图片。Pivot方法通常需要将解码分成两步，计算代价高，并且会有错误传播问题

pivot-based对翻译架构透明，但第一步的错误会影响第二部分翻译。

因此需要探究直接从source到target的翻译模型。

Methods

本文基于的假设是：平行语句在生成第三种语言的一个句子时应该具有相近的概率。

这可以进一步归约到如下两个假设：

若source端语句$\textbf{x}$与pivot端语句$\textbf{z}$互为翻译，那么$\textbf{x}$和$\textbf{z}$翻译出target端语句$\textbf{y}$的概率应该接近
若source端语句$\textbf{x}$与pivot端语句$\textbf{z}$互为翻译，那么在已经获得了部分翻译$\textbf{y_{<j}}$时，$\textbf{x}$和$\textbf{z}$翻译出下一个词y的概率应该接近

Sentence-Level

针对第一种假设自然得到下面的训练目标

其中

由于teacher模型$\textbf{z}\rightarrow{\textbf{y}}$是已有固定模型，训练目标可以化为

P.S. 这里的推导与负对数似然(NLL)训练目标的推导一致

由于$\textbf{y}$指数爆炸，训练比较困难。可以采用的策略有

采样
生成k-best list
mode approximation(?)

Word-Level

针对第二种假设得到下面的训练目标

同Sentence-Level部分的推导，该训练目标等价于

Experiments

验证实验

使用传统方法首先训练pivot-target模型并固定，之后训练source-target，观察两个训练目标的值，发现均有下降

常规实验

source-pivot小数据实验

使用 word-sampling + 某篇论文中的initialization and parameter freezing strategy

Question

mode approximation?
initialization and parameter freezing strategy?
感觉文章很清楚明白，没什么其他想提的问题