LayoutLM原理

1.之前模型的不足和本模型解决的问题

1.针对具体场景需要人工标注数据进行有监督的训练,没有利用大规模的无标注的数据,且无法泛化到其他的板式或者场景。(这里我不是很理解,从下图来看,模型输入的text embedding和position embedding不都是人工标记才能得到的吗。text embedding至少在模型的输入阶段,你应该要知道text具体是什么吧,不能识别错误吧,怎么保证呢,纯靠rec可以吗?不用人工标记吗?同理,这里的position embedding纯靠det能行吗。)

2.单一的使用cv或者nlp领域的预训练模型,没有考虑到文本与版面信息结合。

3.本模型解决了上述两个问题,即利用大规模无标注的数据,将文本与版面信息联合起来训练。

2.模型结构

73ec79f25d142d26951f74f8964e91f7_1631188858721044610.png

1.LayoutLM模型很大程度上借鉴了bert模型。

在模型输入层面上:

LayoutLM在BERT采用的文本与位置特征(也就是上图中的text embeddings)基础上,还新增了两个特征:

1、2D位置特征

2D位置特征(也就是上图中的position embeddings)的目的在于编码文档中的相对空间位置关系。将一个文档视为一个坐标系,其左上角为坐标原点(0,0)。对于一个单词,他的包围盒能够以坐标(x0,y0,x1,y1)表示,其中(x0,y0)是左上角的坐标,(x1,y1)是右下角坐标。x 0与x1共享嵌入层参数X,y0与y1共享嵌入层参数Y。

特别地,整个文档图像的包围盒为(0,0,W,H),其中W与H分别表示文档图像的宽与高。

2、图像特征(就是上图中image embeddings)

根据单词的包围盒,LayoutLM利用ROI操作从Faster R-CNN的输出特征图中生成图像区域特征,与单词一一对应。对于特殊的[CLS]标记(第一个位置字符[CLS]对应Transformer输出的分类结果),则采用整图的平均特征作为该标记的图像特征。

应该注意的是LayoutLM在预训练阶段(就是上图中Pre-trained LayoutLM)并没有采用图像特征。图像特征仅在下游任务阶段可以选择性的加入,而生成图像特征的Faster R-CNN模型权重仅来自于预训练模型,并不做调整。

ps:图像的 ROI (region of interest) 是指图像中感兴趣区域、在 OpenCV 中图像设置图像 ROI 区域,实现只对 ROI 区域操作。

2.LayoutLM预训练

预训练任务1:掩码视觉语言模型MVLM。

在预训练阶段,随机遮盖掉一些单词的文本信息,但仍保留其位置信息,然后训练模型根据语境去预测被掩盖掉的单词。这点和bert一样。通过这个任务,模型能够学会理解上下文语境。并利用2D位置信息,从而连接视觉与语言这两个模态。

预训练任务2:多标签文档分类

文档理解的许多任务需要文档级别的表征。由于IIT-CDIP数据中的每个文档图像都包含多个标签,LayoutLM利用这些标签进行有监督的文档分类任务,以令[CLS]标记输出更为有效的文档级别的表征。但是,对于更大规模的数据集,这些标签并非总可获取,因此该任务仅为可选项,并且实际上在后续的LayoutLMv2中被舍弃。

模型预训练细节

1.除了2D positional embedding之外,其余的参数都使用bert base初始化。
2.预测15%的token,其中80%替换为[MASK],10%随机替换,剩下10%不变,这点和bert一样。
3.标准化所有坐标点为0~1000
4.使用ResNet-101作为Fatser R-CNN的backbone;

3.LayoutLM模型的微调

LayoutLM模型在三个任务上进行微调,分别为:表格理解、票据理解、文档分类。对于表格与票据理解的任务,模型为每个输入位置进行{B,I,E,S,O}序列标记预测,从而检测每个类别的实体。对于文档分类任务,模型利用[CLS]标记的输出特征进行类别预测。

ps:{B,I,E,S,O}是nlp领域的一种序列标注方法。


image.png

3.实验

LayoutLM模型具有和BERT一样的Transformer网络结构,因此采用BERT模型的权重进行初始化。

具体地,BASE模型为12层的Transformer,每层包含768个隐含单元与12个注意力头,共有113M参数;LARGE模型为24层的Transformer,每层包含1024个隐含单元与16个注意力头,共有343M参数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容