0 序:标注问题
image.png
图1
本篇部分文字和公式为阅读<统计学习方法>(李航)第11章,条件随机场所做笔记。图部分为结合个人理解所画,可能有误,欢迎指正~
1 定义
1.1 条件随机场
设X和Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图G=(V,E)表示的马尔可夫随机场,即
对任意节点v成立,则称条件概率分布P(Y|X)为条件随机场。
1.2 线性条件随机场
设
则称P(Y|X)为线性条件随机场。
image.png
图2 条件随机场
线性条件随机场
X和Y具有相同的图结构为线性条件随机场
image.png
图 3 线性条件随机场
在标注问题中,
X表示输入的观测序列,Y表示对应的输出标记序列或状态序列。
1.3 参数化形式
设P(Y|X)为线性链条件随机场,则在随机变量X取值为x的条件下,随机变量y的条件概率具有如下形式:
其中
2 举个栗子
设有一标注问题,输入观测序列为
输出标记序列为
image.png
图 4 状态矩阵
3 维特比算法求最优路径
3.1 初始化
3.2 递推
3.3 终止
3.4 返回
最优标记序列为
image.png
图 5 完成标记过程
4 其他:
从上述图5可看出,我们在用bert+lstm+crf进行命名实体识别时,bert+lstm输出的即为状态矩阵,状态矩阵作为crf层的输入,输出为每个单字的标注。