Bert笔记

前言

虽然早就知道TransformerBERTpaddlepaddle,也知道它们很好用,但觉得很复杂就一直拖着没去尝试,在看完了ACL2018和NER相关的论文后(项目地址),我终于决定尝试新模型了,网上现在做NER的模型大多是BiLSTM+CRF,区别就在于对字/词向量的提取、处理等。ACL这篇论文是将字向量与词向量融合起来当作网络的输入,但和BERT比起来,它对向量的处理还是略显幼稚,虽然BERT是基于字符的,并没有融入词语信息,但我觉得BERT中的自注意力机制让它可以捕获上下文意思,但还没经过实验,我也不知道哪个比较好用,但BERT已经在众多数据集上达到了sota水准,所以我要开始深入BERT了。

先验知识

博客

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史BERT发展史
The Illustrated Transformer【译】详细解释了Transformer

论文

Attention Is All You Need解释了Transformer中的注意力机制

FAQ(frequently asked questions)

Q:到底是直接用BERT做NER还是BERT只用来生成字向量,再将字向量置于其它模型中?

A: 我倾向于后者,BERT是用来捕捉字/句子之间深度关系的,然后输出是向量,这大概就是BERT的作用了,之后再将字/句子向量输入到其它模型中。但是想得到字向量,得先把输入改造成BERT需要的样子。

Q:对于NER而言,如何预处理数据呢?

A: unknown for now

Q:BERT源码解读

A:

  • modeling.py
  • tokenization.py
    tokenization是对原始句子内容的解析,分为BasicTokenizer和WordpieceTokenizer两个。
    • BasicTokenizer的主要是进行unicode转换、标点符号分割、小写转换、中文字符分割、去除重音符号等操作,最后返回的是关于词的数组(中文是字的数组)。
    • WordpieceTokenizer的目的是将合成词分解成类似词根一样的词片。例如将"unwanted"分解成["un", "##want", "##ed"]这么做的目的是防止因为词的过于生僻没有被收录进词典最后只能以[UNK]代替的局面,因为英语当中这样的合成词非常多,词典不可能全部收录。
    • FullTokenizer的作用就很显而易见了,对一个文本段进行以上两种解析,最后返回词(字)的数组,同时还提供token到id的索引以及id到token的索引。这里的token可以理解为文本段处理过后的最小单元。
  • create_pretraining_data.py
    对原始数据进行转换,原始数据本是无标签的数据,通过句子的拼接可以产生句子关系的标签,通过MASK可以产生标注的标签,其本质是语言模型的应用
  • run_pretraining.py
    在执行预训练的时候针对以上两种标签分别利用bert模型的不同输出部件,计算loss,然后进行梯度下降优化。
  • run_squad.py(run_squad.py和run_classifier.py是bert中fine-tune的例子)
  • run_classifier.py(讲的很好,还涉及了如何把代码改造成自己需要的样子)

代码

  • bert-as-service 可以生成字/词/句子向量,但维度相同,不知道这有何意义,但字向量至少是可以用的,而且极其简单。
  • 另一个基于Keras的代码,也可以用,用起来也很简单。 作者还写了一个实例
  • 使用预训练语言模型BERT做中文NER(bert-chinese-ner-master),这个代码没有加入BiLSTM和CRF,但是它是最基础的,之后的都在这上面改。 (代码解读见另一篇博客
  • BERT-BiLSTM-CRF-NER,这个代码加入了BiLSTM和CRF,路径:F:\google下载\BERT相关\Name-Entity-Recognition-master\BERT-BiLSTM-CRF-NER。
  • BERT-BiLSTM-CRF-NER-master,这个代码也加入了BiLSTM和CRF,但是和上面的相比功能好像更全,作者还生成了软件包,里面集成了bert-as-service。(用不起来,已放弃
    注意事项:
    这里面的代码一般都不能直接用,都需要按照README.md中进行配置,就是加个文件夹之类的。

我的理解

参考BERT中自带的fine-tune的实例(run_squad.py和run_classifier.py)可以发现,想把BERT用于NER,首先得把自己的输入改造成BERT所需的格式,然后写一个Processor类,这个类就和run_classifier.py中的Processor结构相同,但是里面的方法要重写。除此之外,还可以加上自己的损失函数(在create_model中),还可以加入CRF层等。

参考博客

https://www.jianshu.com/p/22e462f01d8c
https://blog.csdn.net/u014108004/article/details/84142035#commentBox

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容