Pytorch学习记录-使用统计和先验知识的基于CRF+BiLSTM的CGED

Pytorch学习记录-GEC语法纠错04
五月第一周要结束了,接下来的三个月主要是文献阅读,准备8、9月的开题报告,技术类的文献集中在GEC和Text maching的应用方面,读完之后找demo复现,然后应用。
理论方面的论文也都是英文的

3. Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement

这一篇是基于2017年的模型基础上优化,使用NLPTea-2018 shared Task,目的是定位语法错误以及错误类型。

3.1 摘要

  • 任务:NLPTea-2018 shared Task,定位语法错误以及错误类型
  • 模型结构:基于BiLSTM-CRF,整合一部分新特征
    • 更加丰富的特征
    • 采用概率集合方法
    • 模板匹配器,在后处理期间用于引入人类知识

3.2 介绍

基于深度学习的模型由于其在捕捉特征方面的优势被广泛运用,尤其是在大规模数据挖掘。
在这篇论文中描述了如何将来自大规模文本数据和手工启发知识进行整合;不同的集合策略。

3.3 CGED

2018年的shared task目标是开发新的NLP技术用于自动诊断中文句子中的语法错误。
错误类别主要包括四类错误,要求发现错误并准确定位。使用混淆矩阵(confusion matrix)对模型进行评估。用的还是TP、FP、TN、FN的标准。

  • FPR=FP/(FP+TN)
  • Accuracy=(TP+TN)/(TP+FP+TN+FN)
  • Precision=TP/(TP+FP)
  • Recall=TP/(TP+FN)
  • F_1=2*Precision*Recall/(Precision+Recall)

3.4 方法

3.4.1 BiLSTM-CRF

构建的基于BiLSTM-CRF模型能够通过通过BiLSTM模型获取前后信息,通过CRF层连接来自BiLSTM的连续输出层,更好地解决序列标记问题。这个模型包含有两个潜力:emission and transition潜力。

  • emission潜力P:是由BiLSTM输出的矩阵数值,大小为n*k,k是不同标签的大小。这样P_{i,j}表示的就是输入句子中第i个tag到第j个tag。
  • transition潜力A:是与tag之间的转换相对应的转换矩阵分数。例如,A_{i,j}表示从标签到标签的转换分数。
    这样,一个句子的预测就可以定义为:
    s(X,Y)=\Sigma^n_{i=0}A_{y_{i},y_{i+1}}+\Sigma^n_{i=1}P_{i,y_i}

因此,可以定义由CRF层计算的条件概率,以支持上面说明的预测分数
P(Y|X)=\frac{exp(Score(X,Y))}{\Sigma_{Y'\in Y_X} exp(Score(X,Y'))}

其中Y_X对应输入句子X中所有可能的tag。训练过程使上面计算的条件概率的对数概率最大化到正确的标签序列上。
log(P(Y|X))=s(X,Y)-\log(\Sigma_{Y'\in Y_X} exp(Score(X,Y')))

image.png

整个转发过程的流程图。基于特征的输入首先通过经过训练的单个模型进行处理,其单个模型的LSTM输出在通过CRF层生成标记之前进行加权。使用我们的新方法合并和后处理CRF输出,产生期望的预测。
整个训练数据被分成若干batch,其单位在每个时期逐个处理。每批包含一系列句子或序列形式。

  • 首先前向运行该模型以获得emission矩阵P,其包含每个标签与对应于每个输入词的每个位置之间的关系。
  • 在学习阶段进行反向传播以及解码过程,更新包括转换矩阵A,Bi-LSTM权重和输入要素随机嵌入的网络参数。

3.4.2 新功能

这个模型很依赖先验知识,研究者在2017年的六个特征工程上又增加了三个特征。

  • 分词,使用哈工大开发的LTP分词器对输入句子进行分词并对每个字符串标记为其相应的段(wordgram)和其位置指示符的组合。
  • 高斯ePMI,应该是对2017年相邻词汇搭配PMI的发展,使用可训练的加权高斯分布来利用单词的距离
    GSeP(w_i,w_j)=\mu_{ij}N(j-i)\times ePMI(w_i,w_j;j-i)
    ePMI是用来计算词汇w_iw_j的共现,这两个单词的间隔为j-i,我们使用由数百万学生论文组成的外部数据(阿里就是财大器粗啊)训练了六个GSeP矩阵,这些论文存储了距离变化的每个单词对的GSeP分数。对于目标词,我们将ePMI与相邻词一起计算并将它们映射到离散值内部作为特征。
  • POS和PMI整合,研究者的猜测是,单词之间的PMI得分效率与他们的POS确切地相关,不同POS对的PMI得分具有不同的含义,即使POS对具有相同的PMI得分。为了防止出现这种模棱两可的情况出现,研究者将POS(w_i)\_ POS(w_j)\_ PMI(w_i,w_j)作为补充PMI特征处理。

3.4.3 集成机制

在2017年三个集成机制的基础上又增加了基于概率的集成方法和基于输出排名的集成

  • 基于概率的集成方法,进行序列标注是对于每个模型的输出,加权求平均。随机初始化一个权重参数。
  • 基于ranking的方法。通过实验发现使用Adam的优化方法的模型比使用SGD的优化方法在recall指标上表现比较好,但是直接merger adam 优化的模型,会使得p值较差。将每个Bi-LSTM+CRF模型得到的前40%结果保存下来。 去掉后20%结果的模型。

3.4.4 选择模型

因为每个优化组合包含有10个参数和24个不同的manual seed,最后得到的模型远多于2017年8个模型,这次训练了240个基于SGD(随即梯度下降)和240个基于Adam的模型。论文选取了40个最好的。接下来,分别在4组模型,5模型和6模型组合设置上对每组模型应用概率-集合方法;对于每个设置,我们尝试了数百种组合,最后我们获得了每个优化器组的120个最佳概率 - 集合模型组(pEMG)。我们对每个pEMG进行排列,以找出具有合并方法的三组IEMG。
看着好麻烦啊……

3.5 后期处理

3.6 错误纠正

基于PMI的方式和使用Seq2Seq的Attention机制

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352