Collobert等提出一个有效的神经网络模型,只需要little feature engineering而不是在大量的unlabelled text中训练word embeddings。无监督的训练word embeddings(Collober,Mikolov等)
但是这些模型有缺点:1. 使用简单的前向神经网络,使用固定大小的窗口获取每个词的上下文,会丢弃掉单词之间长距离的关系。2. 只依赖word embeddings,不能开发字符一级的影响,例如前缀和后缀.
使用LSTM做NER,计算能力的有限并且受到word embedding质量的限制。 CNN可以获取字符级别的特征。
本文最大的contribution就是使用双向LSTM和CNNs
模型:
1. Sequence-labelling with BiLSTM
2. 使用CNN提取字符特征
主要特征: word embeddings + character embeddings
其他word级别的特征:1. 大写 2. lexicons 词典
训练:最大化句子级别的对数似然, maximize the sentence level log-likelihood。
定义了tag-transition矩阵,Ai,j表示从tag i转移到tag j的分数。 A0,i是从tag i开始的分数。这个矩阵是经过学习。
整个句子的分数是tags的分数和转移矩阵分数的总和: