pytorch: https://pytorch.org/tutorials/
Bi-LSTM+CRF: https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html
Bi-LSTM结构(序列标注)如下,CRF层用来学习一个最优路径,Bi-LSTM layer的输出维度是tag size,这就相当于是每个词映射到tag的发射概率,
假设:
Bi-LSTM的输出矩阵为P,其中代表词
映射到
的非归一化概率。
转移矩阵 ,
代表
转移到
的转移概率。
输入序列X对应的输出序列为
,定义得分为:
对于输入,有多种输出序列
,对这些结果,使用
归一化。
其中表示所有可能情况的序列
优化对数似然函数
image.png