MTNT: A Testbed for Machine Translation of Noisy Text
第一部分制造数据集
-
包含的错误类型,因为是直接从
reddit
上爬的数据,因此数据本身就具有很大的自然状态下的噪音。
-
对比语料,可以认为是纯净的数据。
-
对从
reddit
上面爬下来的数据进行过滤。
-
然后进行
Normalization
,这一步骤只是为了检测出有什么noise
()即下面的对数据进行分析的步骤,在release
的comments
上没有进行Normalization
-
只保留至少有一个
OOV
(相比于纯净数据集)的句子
-
使用
Language model
选出置信度below 1%100
的句子,认为这些数据是有噪音的数据。
-
然后移除重复的句子,为了让句子的噪声不要太大然后选出
LM
得分在5-70 percentile
的句子,最后随机挑选15000
个samples
。
第二部分
接着把这些数据让专业人士翻译,人工清除测试集中的翻译错误。
-
上面那么多轮筛选,没被选中的句子构成了单语语料
-
对数据集进行分析
- 与现有测试集进行对比,发现
noise
的比例大增,这正是我们所需要的
- 使用的是最简单的翻译模型加上
BPE
- 实验结果,在
noise
的训练集上进行finetune
也不能在noise
的测试集上表现的很好,因此这个数据集是非常有挑战的。
-
因为要刷榜,作者强烈要求使用sacreBLEU
-
finetune
的超参数。
结论
说明自己的数据集是一个好的数据集