注意力机制在机翻里相当于词对齐,只不过比单纯的词对齐更精细。
在seq2seq中加入注意力机制这一步相当于用giza词对齐搭建SMT,
考虑到实际中完美的词对齐可能不存在,自然注意力机制会更接近真实情况。
假如A B C三个词对应一个目标语言翻译”某“,
源文本X X A X X B X C X X X
词对齐相当于分配权重(0 0 0.33 0 0 0.33 0 0.33 0 0 0)
但实际的训练结果也许是(0.02 0.01 0.3 0 0 0.3 0.03 0.3 0.01 0.01 0.01)
翻译结果中的一个词之所以是那么翻译,是由整个句子的语境信息决定的。想剥离出一个源语言词簇作为这个目标语言词的”源“太理想化了。
词对齐的缺陷:不允许重复使用
这样即便一个词的译法不只由中心词决定,还看语境,而语境各词又被明确译出,词对齐就无法体现出语境是否左右了该词的译法了。
直观上,比如设置一个显著性的门限,可以导出一个词对齐。
这意味着确定了靠那几个词就可以确定如何翻译出一个词。
另一种理解是权值低的词的意思来修正权值高的词的翻译结果