本文基于AllenNLP英文tutorial翻译,其中不少错误,仅作为个人学习记录
有一篇帖子总结了一下学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。
- 去除停用词,建立词典,加载各种预训练词向量,Sentence -> Word ID -> Word Embedding的过程(Tobias Lee:文本预处理方法小记),其中不仅需要学习pytorch,可能还要学习spacy,NLTK,numpy,pandas,tensorboardX等常用python包。
- 用到RNN时,还要经过pad,pack,pad的过程,像这样的很多函数在使用时需要有数学基础加上简单的实践,感觉对一个新人来说,高维数据的流动有点抽象,不容易理解。
- 数据集的读取,tensorboardX的使用。。。。各种东西要学习。在运行别人的代码后打印出信息,不仅看着上档次,而且可以看到很多实用的信息。。。
AllenNLP是在pytorch基础上的封装,它的目标是处理NLP任务,可以减少很多额外的学习。
- 分词,帮你用spacy,NLTK,或者简单的按空格分词处理。
- 数据集的读取,它内置了很多数据集的读取,你可以在通过学习它的读取方式,在它的基础上对自己需要的数据集进行读取。 、
- 在Sentence -> Word ID -> Word Embedding的过程中,Glove,ELMo,BERT等常用的都可以直接使用,需要word,char粒度的都可以。
- log打印输出,在内置的输出项之外,你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中,修改参数进行实验很方便。
2. A Walk Through AllenNLP
第三部分 创建自己的模型
使用自带的模型很好,但是自定义更牛逼,这节就是如何自定义模型。
一般来说,为了实现一个新模型,需要实现一个DatasetReader子类来读入数据集以及与要实现的模型相对应的Model子类。(如果您已经使用了数据集的DatasetReader,当然可以重用那个。)在本教程中,我们还将实现一个自定义PyTorch模块,但通常不需要这样做。
我们的Simple Tagger模型使用LSTM来捕获输入句子中单词之间的依赖关系(就是第一次实现的那个),但是没有很好的方法来捕获标记之间的依赖关系。
对于像命名实体识别(NER)这样的任务来说,这可能是一个问题。
我们将尝试构建一个NER模型,该模型可以胜过CoNLL 2003数据集上的简单标记器。Simple Tagger在验证数据集上获得大约88%span_based_f1。在这里应该可以做的更好。
解决此问题的一种方法是在标记模型的末尾添加条件随机场层(Conditional Random Field layer)。 (如果你不熟悉CRF,这个概述文章是有用的,就像这个PyTorch教程一样。)
这个“线性链”CRF具有转换成本的num_tagsX num_tags矩阵,其中transition [i,j]表示从第j个标签转换到第i个标签的可能性。除了我们想要预测的任何标签之外,我们还会有特殊的“开始”和“结束”标签,我们将在每个句子之前和之后粘贴,以便捕捉作为标签的固有的“过渡”。句子的开头或结尾。
此外,我们的CRF将接受一组可选的约束,这些约束禁止“无效”转换(其中“无效”取决于您尝试建模的内容。)例如,我们的NER数据在每一个实体中都有代表开头,中间,结束的标签。
由于CRF只是我们模型的一个组成部分,我们将其作为模块实现。
实现CRF模块
为了实现PyTorch的模块,可以直接从torch.nn.Module中继承并覆盖
def forward(self, *input):
pass
计算所提供输入的对数似然(log-likelihood)。
要初始化此模块,我们只需要标记的数量和可选的一些约束(表示为允许对的列表(from_tag_index,to_tag_index)):
实现CRF的标签模块
CrfTagger与SimpleTagger模型非常相似,因此我们可以将其作为起点。我们需要进行以下更改:
- 为模型提供一个包含适当初始化的ConditionalRandomField模块的crf属性
- 用Viterbi-generated最可能的标签替换softmax类概率
- 用CRF对数似然的负数替换softmax +交叉熵损失函数
然后我们可以将新模型注册为“crf_tagger”。
构建一个DatasetReader
CONLL data的格式
U.N. NNP I-NP I-ORG
official NN I-NP O
Ekeus NNP I-NP I-PER
heads VBZ I-VP O
for IN I-PP O
Baghdad NNP I-NP I-LOC
. . O O
每一行包括:一个token,一个词性标签,一个语法块标签,一个命名实体标签。空行表明是句子的结尾。
-DOCSTART- -X- O O
这个段表明文本的结尾。
用户可以自己查看代码,但在较高的层次上,我们使用itertools.groupby将输入组合成“分隔符”或“句子”组。然后,对于每个句子,我们将每行分成四列,为令牌创建一个TextField,并为标签创建SequenceLabelField(对我们来说,这将是NER标签)。
创建一个配置文件
这个就是对之前配置文件的修改,可以参考SimpleTagger的JSON文件,只需要对以下几点进行修改。
- 将model.type名称改为crf_tagger
- 修改dataset_reader.type为conll2003
- 增加dataset_reader.tag_label块,名称为ner,为了指明NER标签是我们预测的。
整合在一起
allennlp train tutorials/getting_started/walk_through_allennlp/crf_tagger.json -s /tmp/crf_model
最后这部分,没有训练成功,还得看一下。