Sequence-to-Dependency Neural Machine Translation

[TOC]

当前的提升NMT效果的方法主要有：

作者发现长距离上的句法错误经常出现在翻译结果中，说明线性RNN不容易捕捉到细微的长距离word dependency。

这种长距离的词语相关可以通过句法依赖树来解决。好处有两点：

但是想法的实现有很多困难：

本文主要采用的是 Jointly 产生 目标词 和 Action 的改进Decoder的方法

算法: arc-standard algorithm

利用一个栈和一个buffer，定义三种transition actions

语法结构树和transition actions序列等价

对长度为n的句子，每个词需要入栈和出栈一次，则transition actions序列长度l=2n

总体上来说，模型定义为

$P(Y,T|X) = P(Y,A|X) = P(y_1y_2..y_n,a_1,a_2..a_l|X)$

其中 $a_{j} \in{\{SH, RR(d), LR(d)\}}$

只有在产生动作SH时，才预测下一个词，通过定义函数$\delta$来实现这一点

$\delta{(SH, a_j)}=\left\{ \begin{aligned} 1 & & when & SH = a_j \\ 0 & & when & SH \neq a_j \end{aligned} \right.$

则

利用两个相互关联的RNN来分别model Y和A，例如

总体架构如下

终止条件除了word-RNN产生EOS之外，还要求栈里的所有词都经过规约

考虑栈顶两个词 $\omega_0$ 和 $\omega_1$ ，及它们的在句法树里的最左最右两个修饰 $\omega_0l$，$\omega_0r$，$\omega_1l$，$\omega_1r$，文中考虑了2种一元特征和4种二元特征，最后得到的context如下

其中

$\begin{aligned} b_{hc} = tanh(W_{b}E\omega_h + U_{b}E\omega_{hc}) & & h \in{\left\{0,1\right\}} , & c \in{\left\{l,r\right\}} \end{aligned}$

注：Context只在model概率的时候用到，在计算hidden state时只利用了 $c_j$

训练目标为最大化

解码时score如下

直观上来说，action prediction时beam size越大，则dependency tree质量越高

作者通过调大该beam size，观测到翻译BLEU值的提升，从而说明建立dependency tree能够增强目标词生成