日汉翻译的问题

1 缺乏高质量的训练语料

目前获得平行语料40万左右(未处理40万+70万)。但存在翻译不准确,出现无意义符号,翻译句子过长,上下句子顺序颠倒等问题。词表大小5万左右,但词频2次及以下占了50%以上。

2 分词不准确

目前日文使用juman++(version1.0.2),中文使用LTP。均存在分词结果不稳定的情况。

3 模型

目前使用端到端Transformer模型。对于较短文本翻译结果时有较好的情况,猜测可能在训练语料中有相似句子较多。对长文本大多结果较差。由于端到端翻译,一般翻译错误的结果都与原句相差较远,无法针对翻译错误的某个词进行纠正。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容