面向神经机器翻译的篇章级单语修正模型

发布时间：2019-10-28 12:46:11 所属栏目：评测来源：小牛翻译

导读：副标题#e# 本文转自雷锋网，如需转载请至雷锋网官网申请授权。《面向神经机器翻译的篇章级单语修正模型》[1]是EMNLP2019上一篇关于篇章级神经机器翻译的工作。针对篇章级双语数据稀缺的问题，这篇文章探讨了如何利用篇章级单语数据来提升最终性能，提出了

在指代、词汇选择和名词形态省略问题中，DocRepair具有明显优势，而在动词省略问题中，DocRepair模型对比CADec低了5百分点。可能的原因是DocRepair模型仅仅依赖于目标端单语，而采用round-trip方式构造的训练集中很少包含动词缺失的样本，使得模型很难做出正确预测。

面向神经机器翻译的篇章级单语修正模型

为了验证单语数据的局限性，作者在DocRepair模型上进行了不同数据构造方式的对比实验，结果如表4。one-way表示拿双语数据中的源语替换round-trip的第一步反向过程。可以看出，one-way的方式要整体高于round-trip方式，而其中对于round-trip方式最难的问题就是动词省略。

4、总结

这篇工作提出了完全基于目标端单语的DocRepair模型，用来修正机器翻译结果，解决篇章级不一致性。同时对DcoRepair在具体篇章级问题中的性能进行了分析，指出了仅仅依赖于单语数据和round-trip的构造方式的局限性。

以往的工作大多关注于在解码过程中如何融合上下文信息，但是性能往往受限于篇章级双语数据的稀缺。这篇工作为我们提供了一个新思路，可以避免双语数据稀缺的问题，但是也引出了一个新的问题。篇章级翻译的目标是解决传统句子级翻译中丢失句子间上下文信息的问题，而在这种后编辑的方法中，仅仅使用了目标端的一组没有上下文一致性的翻译结果就可以通过单语修正模型获得一致性的结果，缺乏对源语的关注。笔者认为，在双语稀缺的情况下，如何更好的引入源语上下文信息也是一个有趣的问题。

参考文献

[1] Voita, Elena, Rico Sennrich, and Ivan Titov. "Context-Aware Monolingual Repair for Neural Machine Translation." arXiv preprint arXiv:1909.01383 (2019).

[2] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

[3] Hassan, Hany, et al. "Achieving human parity on automatic chinese to english news translation." arXiv preprint arXiv:1803.05567 (2018).

[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). Context-aware neural machine translation learns anaphora resolution. arXiv preprint arXiv:1805.10163.

[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). Improving the transformer translation model with document-level context. arXiv preprint arXiv:1810.03581.

[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019, July). Modeling coherence for discourse neural machine translation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7338-7345).

[7] Voita, E., Sennrich, R., & Titov, I. (2019). When a Good Translation is Wrong in Context: Context-Aware Machine Translation Improves on Deixis, Ellipsis, and Lexical Cohesion. arXiv preprint arXiv:1905.05979.

【编辑推荐】

人工智能、5G应用不再停留在“纸上蓝图” 数字经济发展提速
搭建容易维护难！谷歌机器学习系统血泪教训
Photoshop 2020来了，人工智能让设计更轻松
央视点名推荐的“家庭智能管家”，疑似阿里人工智能实验室新品
新的人工智能编程语言超越了深度学习

【责任编辑：张燕妮 TEL：（010）68476606】
点赞 0

（编辑：南平站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

华硕 TUF GAMING B460	技嘉Z390 AORUS XTREM
华硕ROG STRIX X570-E	AI手势辨别别Vlog隔空