[自然语言处理-入门]五、序列标注基础（2）

简书的Markdown编辑器出问题了……换富文本编辑器勉强凑合一下，因为这个编辑器不方便写公式，所以把所有公式和图片先移除了。等修好了换Markdown版本的。

学习路线参考：

https://blog.51cto.com/u_15298598/3121189

https://github.com/Ailln/nlp-roadmap

https://juejin.cn/post/7113066539053482021

https://zhuanlan.zhihu.com/p/100567371

https://cloud.tencent.com/developer/article/1884740

本节学习使用工具&阅读文章：

https://zhuanlan.zhihu.com/p/156914795

https://spaces.ac.cn/archives/7213

https://zhuanlan.zhihu.com/p/97829287

https://www.zhihu.com/question/62399257

https://zhuanlan.zhihu.com/p/47802053

https://zhuanlan.zhihu.com/p/150103958?from_voters_page=true

1. 命名实体标注

命名实体识别是指识别中文文本中实体的边界和类别。命名实体识别是文本处理中的基础技术，广泛应用在自然语言处理、推荐系统、知识图谱等领域，比如推荐系统中的基于实体的用户画像、基于实体召回等。

1. 命名实体分类

· 3大类：实体类、时间类、数字类

· 7小类：人名、地名、组织机构名、时间、日期、货币量、百分数

2. 命名实体识别思想

通常先进行实体标注，然后识别单个实体，最后再识别复合实体。

3. 实体标注方法

1. IOB标注法：I表示内部，O表示外部，B表示开始

2. BIOES标注法：B表示开始，I表示内部，O表示外部，E表示结束，S表示这个词是单独形成一个命名实体

2. 命名实体识别方法

· 基于规则的方法：依赖词典、模板、正则表达式等匹配方法。

· 基于机器学习方法：HMM、MEMM、ME、SVM、CRF，关注概率。

· 基于深度学习方法：BiLSTM-CNN-CRF、BERT-BiLSTM-CRF，关注整体。

基于机器学习方法的主要方法对比如下：

ME最大熵：通用性好，训练效率低

MEMM最大熵马尔科夫模型：充分利用特征，局部最优

HMM隐马尔可夫模型：训练快，局部最优

SVM支持向量机：理论完备，训练效率低

CRF条件随机场：特征灵活、全局最优，依赖特征模版

3. MEMM

[公式部分待Markdown编辑器修好了之后贴上来]

对比MEMM和CRF，二者的区别仅在于分母（归一化因子$Z(X)$）的计算方式不同，CRF的我们称之为是全局归一化的，而MEMM的我们称之为是局部归一化的。全局归一化模型效果通常好些，但实现通常相对困难一些；局部归一化模型效果通常不超过全局归一化模型，但胜在易于实现，并与易于拓展。

MEMM除了训练速度快之外，性能并不优于CRF。

4. LSTM-CRF

序列标注问题本质上是分类问题，因为其具有序列特征，所以LSTM就很合适进行序列标注。

我们可以直接利用LSTM进行序列标注。但是这样的做法有一个问题：每个时刻的输出没有考虑上一时刻的输出。我们在利用LSTM进行序列建模的时候只考虑了输入序列的信息，即单词信息，但是没有考虑标签信息，即输出标签信息。

这样会导致一个问题，以“我喜欢跑步”为例，LSTM输出“喜欢”的标签是“动词”，而“跑步”的标签可能也是“动词”。但是实际上，“名词”标签更为合适，因为“跑步”这里是一项运动。也就是“动词”+“名词”这个规则并没有被LSTM模型捕捉到。也就是说这样使用LSTM无法对标签转移关系进行建模。

而标签转移关系对序列标注任务来说是很重要的，所以就在LSTM的基础上引入一个标签转移矩阵对标签转移关系进行建模。

CRF有两类特征函数，一类是针对观测序列与状态的对应关系，一类是针对状态间关系。在LSTM+CRF模型中，前一类特征函数的输出由LSTM的输出替代，后一类特征函数就变成了标签转移矩阵。

可以将LSTM的输出矩阵看作是一个打分矩阵，将其输出作为CRF的发射概率；再由CRF自己学习转移概率，即构成了LSTM-CRF体系。

5. BiLSTM

利用LSTM对句子进行建模存在一个问题：无法编码从后到前的信息。在更细粒度的分类时，如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务需要注意情感词、程度词、否定词之间的交互。举一个例子，“这个餐厅脏得不行，没有隔壁好”，这里的“不行”是对“脏”的程度的一种修饰，通过BiLSTM可以更好的捕捉双向的语义依赖。

BiLSTM就是双向的LSTM，同时具备前向的LSTM和后向的LSTM。

6. BiLSTM-CRF

同LSTM-CRF一样，相比LSTM-CRF，BiLSTM更能识别上下文信息。

7. BiLSTM-CNNS-CRF

出自ACL2016[《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》](https://arxiv.org/abs/1603.01354)特点是END2END，不需要手工进行特征设计，不需要任何特征工程，这说明不需要手工的特征也能有好的性能。

流程：

1. 卷积神经网络：提取单词字符级表示

2. BiLSTM：单向LSTM只能获取过去信息，无法获取未来信息，所以双向LSTM的基本思想是将每个序列向前和向后呈现到两个单独的隐藏状态，以分别捕获过去和未来的信息。然后将两个隐藏状态连接起来形成最终的输出。

3. CRF：使用条件随机场 (CRF）联合建模标签序列，而不是独立解码每个标签。

后面部分与BiLSTM-CRF是相同的，只是在前面加上了一个CNN。在先前的研究工作中发现，CNN可以有效抽取单词字符的形态学特征（如单词的前缀、后缀等）形成字符级别的表示特征。这里的Word Embedding分别使用了GloVe、Senna-50、Google's Word2Vec-300，实验表明GloVe的效果最好。

最后编辑于：2023.03.09 22:50:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,204评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,091评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,548评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,657评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,689评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,554评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,302评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,216评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,661评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,851评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,977评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,697评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,306评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,898评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,019评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,138评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,927评论 2赞 355

[自然语言处理-入门]五、序列标注基础（2）

推荐阅读更多精彩内容