Pytorch学习记录-接近人类水平的GEC(使用混合机器翻译模型)

五月第二周要结束了,接下来的三个月主要是文献阅读,准备8、9月的开题报告,技术类的文献集中在GEC和Text maching的应用方面,读完之后找demo复现,然后应用。
理论方面的论文也都是英文的

8. Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation

昨天一天没看论文,发现我文献阅读速度太慢了……
今天的论文是爱丁堡大学2018年的一篇文章。
作者将基于SMT和NMT模型的两个GEC整合在一起,搞出来一个混合系统(hybrid system),然后在CoNLL-2014和JFLEG中都获得了STOA(CoNLL-2014获得56.25、JFLEG获得61.50,微软的系统在这个模型之后出现,用它做过对比,在2018年是碾压的)。
模型保留了SMT输出的准确性,同时使用NMT来生成更为流畅的句子。

8.1 介绍

目前NMT在输出结果上仍弱于基于短语的SMT,但是NMT能够生成更加流畅的句子。


image.png

8.2 数据和预处理

主要训练数据集是NUCLE,使用Lang-8语料库英语句子作为增加的训练数据。
测试集使用CoNLL-2013和2014,JFLEG数据集

8.3 SMT系统

基于LSTM、基于短语的SMT系统。

  • Dense特征:使用词级别的Levenshtein距离(一种字符串编辑距离)和编辑操作计数
  • Sparse(稀疏)特征:在单词类上有基于单词前后上下文的矫正模式
  • 字符操作:使用字符级别特征,用于纠正拼写错误
  • 使用N-gram(n=5)模型和OSM(?)

8.4 NMT系统

NMT是基于attention机制和单层BiGRU的encoder-decoder模型,

8.5 整合SMT-NMT系统

使用Pipelining(流水线)和Rescoring(重新分析方法),以结合最好的SMT和NMT GEC系统。

8.5.1 SMT-NMT流水线

image.png

使用SMT纠正后的结果输入NMT。Pipelining能够提高测试集的recall分数。在表中可以看到没有使用RNN LM的NMT的P值得分低于SMT,这意味着两种方法都会产生互补的修正。

8.5.2 NMT重新分析法(Rescoring)

从一个系统到另一个系统获得的n-best列表的重新分类是GEC中常用的技术,其允许组合多个不同系统甚至不同方法。
在实验中,使用SMT系统生成1000 n-best列表,并从每个神经元件中添加单独的分数。在负日志空间中以概率的形式添加分数的NMT模型和RNN LM。重新评分的权重是从开发集上的Batch Mira算法的单次运行中获得的。
与流水线相反,重新安排以提高召回为代价提高了精度,对CoNLL数据更有效,最高可达54.95 M2。但是,重新评估的最佳结果低于该测试集上的流水线操作。似乎SMT系统无法在n-best列表中产生与NMT集合产生的那些多样化的校正。

8.5.3 拼写纠正和最后的结果

8.6 结果分析

image.png

这是最后的输出例子,从源句到SMT,到NMT,然后使用Pipelining和Rescoring进行处理,最后给出若干个备选项。

表5显示了来自JFLEG测试语料库的示例源句子的系统输出,其说明了统计和神经方法的互补性。 SMT和NMT系统产生不同的校正。rescoring能够产生唯一的校正(is change→has changed),但它无法从神经系统产生一些校正,例如,拼写错误(becom 和 dificullty)。另一方面,Pipelining可能无法改善SMT系统进行的局部校正(is changed)。这两种方法的组合产生输出。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容