pytorch: https://pytorch.org/tutorials/
Bi-LSTM+CRF: https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html
Bi-LSTM结构(序列标注)如下,CRF层用来学习一个最优路径,Bi-LSTM layer的输出维度是tag size,这就相当于是每个词映射到tag的发射概率,
假设:
Bi-LSTM的输出矩阵为P,其中代表词映射到的非归一化概率。
转移矩阵 , 代表转移到的转移概率。
输入序列X对应的输出序列为,定义得分为:
对于输入,有多种输出序列,对这些结果,使用归一化。
其中表示所有可能情况的序列
优化对数似然函数