论文笔记-Is ChatGPT A Good Translator? A Preliminary Study

大家好,今天给大家看下腾讯AI实验室关于chatGPT在机器翻译中表现的一篇论文。论文地址戳https://arxiv.org/pdf/2301.08745v2.pdf

这篇文章发表还是蛮早的,所以做的东西相对来说比较简单,大家尽量看图理解。内容主要包括翻译prompt,多语言翻译和健壮性三个部分。首先看下它用的测试集信息。


1.png

1 翻译prompt
ChatGPT的prompt会严重影响获得的结果,是实验中非常重要的变量。这里chatGPT给了多个做翻译的prompts,然后他们把这些prompts分成三类分别做了实验,结果如下,可见第三个prompt结果最好,就在接下来的论文中统一使用该prompt。这里用的数据是来自Flores-101的Zh>En数据。


2.png
3.png

2 多语言翻译
和先有的商业翻译模型相比,chatGPT在高资源数据上表现很好,但是在低资源和语系很远的语言上表现不行。这里提出了叫做pivot prompting的方法来提高翻译效果。这个也是很有效的解决方法,不光是在机器翻译中,大家平时尽量问chatGPT英文问题,再让它把英文回答翻译为中文,这样比直接使用中文效果好很多。
这里用的数据也是Flores-101, 具体包括德语(De),英语(En),罗马尼亚语(Ro),和中文(Zh)。


4.png

2.1 资源不同
比较En<>De, En<>Ro,可以看到>En这个方向的结果更好。

2.2 语系
比较En<>De, Zh<>En和Ro<>Zh,可以看到语言之间的语系越近,翻译结果越好,这个也是很自然的,毕竟chatGPT中绝大部分数据是英语,拉丁语系直接可以更加的进行知识迁移,效果更好。

2.3 Pivot Prompting
上面已经说过这个了,这里说下它的效果。


5.png
6.png

3 翻译健壮性
在生物医学摘要和reddit评论这里,chatGPT没用商业翻译模型好,但是在口语翻译上表现非常好。这里还可以下length ration(LR)参数来看下欠翻译问题。


7.png
8.png

问题
1 首先是测试集的选择,GPT的训练数据是单语数据,这样所有的翻译任务可以看作是零样本学习,从这个角度说论文里用的wmt21,19是OK的。但我会选wmt22,这样可以100%保证测试集不在训练数据中。

2 评估方法使用了bleu、chrf和TER,强烈建议加上comet分数,这个分数更加可靠。comet工具戳https://github.com/Unbabel/COMET

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容