自然语言处理N天-AllenNLP学习（实现简单的词性标注）

新建 Microsoft PowerPoint 演示文稿 (2).jpg

1. 前言

在了解了Transformer之后，这个模型是否可用呢？现在遇到的问题是，目前试了几个模型（LSTM、GRU、Transformer），但是还没有放入实践中，具体应该怎么操作？

有一篇帖子总结了一下学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。

去除停用词，建立词典，加载各种预训练词向量，Sentence -> Word ID -> Word Embedding的过程(Tobias Lee：文本预处理方法小记)，其中不仅需要学习pytorch，可能还要学习spacy，NLTK，numpy，pandas，tensorboardX等常用python包。
用到RNN时，还要经过pad,pack,pad的过程，像这样的很多函数在使用时需要有数学基础加上简单的实践，感觉对一个新人来说，高维数据的流动有点抽象，不容易理解。
数据集的读取，tensorboardX的使用。。。。各种东西要学习。在运行别人的代码后打印出信息，不仅看着上档次，而且可以看到很多实用的信息。。。

AllenNLP是在pytorch基础上的封装，它的目标是处理NLP任务，可以减少很多额外的学习。

分词，帮你用spacy，NLTK，或者简单的按空格分词处理。
数据集的读取，它内置了很多数据集的读取，你可以在通过学习它的读取方式，在它的基础上对自己需要的数据集进行读取。、
在Sentence -> Word ID -> Word Embedding的过程中，Glove，ELMo，BERT等常用的都可以直接使用，需要word，char粒度的都可以。
log打印输出，在内置的输出项之外，你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中，修改参数进行实验很方便。

2. 引入库

在getstarted中对每一行都做了注释

from typing import Iterator, List, Dict #AllenNLP使用类型注释来处理一切
import torch
import torch.optim as optim
import numpy as np

#在AllenNLP中，我们将每个训练示例表示为包含各种类型的字段的实例。这里每个例子都有一个包含句子的TextField，以及一个包含相应词性标签的SequenceLabelField。
from allennlp.data import Instance
from allennlp.data.fields import TextField, SequenceField

#通常使用AllenNLP来解决这样的问题，你将有两个类。第一个是DatasetReader，它包含数据文件和实例流的逻辑。
from allennlp.data.dataset_readers import DatasetReader
#我们经常要从URL加载数据集或模型。 cached_path帮助程序下载此类文件，在本地缓存它们，并返回本地路径。它还接受本地文件路径（它只是按原样返回）。
from allennlp.common.file_utils import cached_path

# 有多种方法可以将单词表示为一个或多个索引。
# 例如，可以维护唯一单词的词汇表，并为每个单词指定相应的ID。
# 或者可能在单词中每个字符有一个id，并将每个单词表示为一系列id。 AllenNLP使用具有TokenIndexer抽象的表示。
from allennlp.data.token_indexers import TokenIndexer, SingleIdTokenIndexer
from allennlp.data.tokenizers import Token
# TokenIndexer表示如何将标记转换为索引的规则，而词汇表包含从字符串到整数的相应映射。
# 例如，token indexer可能指定将令牌表示为字符ID序列，
# 在这种情况下，词汇表将包含映射{character  - > id}。
# 在这个特定的例子中，我们使用SingleIdTokenIndexer为每个标记分配一个唯一的id，因此Vocabulary只包含一个映射{token  - > id}（以及反向映射）。
from allennlp.data.vocabulary import Vocabulary

# 除了DatasetReader，另一个需要实现的类是模型Model，这是一个Pytorch组件，将张量输入和产出的词典作为张量输出
from allennlp.models import Model

# 如上所述，我们的模型将包含一个嵌入层，然后是LSTM，然后是前馈层。 AllenNLP包括所有这些智能处理填充和批处理的抽象，以及各种实用功能。
from allennlp.modules.text_field_embedders import TextFieldEmbedder, BasicTextFieldEmbedder
from allennlp.modules.token_embedders import Embedding
from allennlp.modules.seq2seq_encoders import Seq2SeqEncoder, PytorchSeq2SeqWrapper
from allennlp.nn.util import get_text_field_mask, sequence_cross_entropy_with_logits

from allennlp.training.metrics import CategoricalAccuracy

#在我们的训练中，我们需要一个可以智能地批量处理数据的DataIterators。
from allennlp.data.iterators import BucketIterator
#使用AllenNLP的全特征训练
from allennlp.training.trainer import Trainer
#希望对新输入作出预测。
from allennlp.predictors import SentenceTaggerPredictor

torch.manual_seed(1)

3.实现一个简单的LSTM词性标注

# 实现DatasetReader子类
# 教程中的两个数据集（训练集和验证集）是两个句子，每一个句子都进行了分词，并打上标签。使用###进行标识
class PosDatasetReader(DatasetReader):
    '''
    DatasetReader for PoS tagging data, one sentence per line, like
    The###DET dog###NN ate###V the###DET apple###NN
    '''

    # 我们的DatasetReader需要的唯一参数是TokenIndexers的dict，它指定如何将标记转换为索引。
    # 默认情况下，我们只为每个token（我们称之为“token”）生成一个索引，这只是每个不同令牌的唯一ID。 （这只是您在大多数NLP任务中使用的标准“单词索引”映射。）
    def __init__(self, token_indexers: Dict[str, TokenIndexer] = None) -> None:
        super().__init__(lazy=False)
        self.token_indexers = token_indexers or {"tokens": SingleIdTokenIndexer()}

    # DatasetReader.text_to_instance
    # 获取与训练示例相对应的输入（在这种情况下是句子的标记和相应的词性标记），
    # 实例化相应的Fields（在这种情况下是句子的TextField和其标签的SequenceLabelField） ），
    # 返回包含这些字段的实例。
    # 请注意，标记是可选的，因为我们希望能够从未标记的数据创建实例以对它们进行预测。
    def text_to_instance(self, tokens: List[Token], tags: List[str] = None) -> Instance:
        sentence_field = TextField(tokens, self.token_indexers)
        fields = {"sentence": sentence_field}

        if tags:
            label_field = SequenceLabelField(labels=tags, sequence_field=sentence_field)
            fields["labels"] = label_field

        return Instance(fields)

    # 我们必须实现的另一个部分是_read，它接受一个文件名并生成一个实例流。大部分工作已经在text_to_instance中完成。
    def _read(self, file_path: str) -> Iterator[Instance]:
        with open(file_path) as f:
            for line in f:
                pairs = line.strip().split()
                sentence, tags = zip(*(pair.split('###') for pair in pairs))
                yield self.text_to_instance([Token(word) for word in sentence], tags)


# 您将始终必须实现的另一个类是Model，它是torch.nn.Module的子类。
# 它的工作原理在很大程度上取决于你，它只需要一个前向方法，它接受张量输入并产生一个张量输出的字典，其中包括你用来训练模型的损失。
# 如上所述，我们的模型将包括嵌入层，定序器和前馈网络。
class LstmTagger(Model):
    def __init__(
            self,
            word_embeddings: TextFieldEmbedder,
            encoder: Seq2SeqEncoder,
            vocab: Vocabulary
    ) -> None:
        # 必须将词汇传递给基类构造函数
        super().__init__(vocab)
        self.word_embeddings = word_embeddings
        self.encoder = encoder

        # 前馈层不作为参数传入，而是由我们构造。
        # 请注意，它查看编码器以查找正确的输入维度并查看词汇表（特别是在标签 - >索引映射）以查找正确的输出维度。
        self.hidden2tag = torch.nn.Linear(in_features=encoder.get_output_dim(),
                                          out_features=vocab.get_vocab_size('labels'))
        self.accuracy = CategoricalAccuracy()

    def forward(self,
                sentence: Dict[str, torch.Tensor],
                labels: torch.Tensor = None
                ) -> Dict[str, torch.Tensor]:
        # 掩码处理，这里做了很好的封装，还记得之前实现Transformer的时候写的mask。
        # AllenNLP设计用于批量输入，但不同的输入序列具有不同的长度。在幕后，AllenNLP填充较短的输入，以便批处理具有统一的形状，这意味着我们的计算需要使用掩码来排除填充。这里我们只使用效用函数get_text_field_mask，它返回与填充和未填充位置相对应的0和1的张量。
        mask = get_text_field_mask(sentence)

        # 我们首先将句子张量（每个句子一系列token ID）传递给word_embeddings模块，该模块将每个句子转换为嵌入式张量序列。
        embeddings = self.word_embeddings(sentence)

        # 接下来，我们将嵌入的张量（和掩码）传递给LSTM，LSTM产生一系列编码输出。
        encoder_out = self.encoder(embeddings, mask)

        # 最后，我们将每个编码输出张量传递给前馈层，以生成对应于各种标签的logits。
        tag_logits = self.hidden2tag(encoder_out)
        output = {'tag_logits': tag_logits}

        # 标签是可选的，因为我们可能希望运行此模型来对未标记的数据进行预测。如果我们有标签，那么我们使用它们来更新我们的准确度指标并计算输出中的“损失”。
        if labels is not None:
            self.accuracy(tag_logits, labels, mask)
            output["loss"] = sequence_cross_entropy_with_logits(tag_logits, labels, mask)

        return output

    # 在前馈层更新正确率矩阵。这意味着我们需要覆盖从中提取数据的get_metrics方法。在幕后，CategoricalAccuracy指标存储预测数量和正确预测的数量，在每次前向更新这些计数。每次调用get_metric都会返回计算的精度，并（可选）重置计数，这使我们能够跟踪每个时期的新精度。
    def get_metrics(self, reset: bool = False) -> Dict[str, float]:
        return {"accuracy": self.accuracy.get_metric(reset)}


# 开始实现之前的DatasetReader和Model
# 首先实例化DatasetReader
reader = PosDatasetReader()

# 训练集和验证集数据下载
train_dataset = reader.read(
    cached_path(r'https://raw.githubusercontent.com/allenai/allennlp/master/tutorials/tagger/training.txt'))
validation_dataset = reader.read(
    cached_path(r'https://raw.githubusercontent.com/allenai/allennlp/master/tutorials/tagger/validation.txt'))

# 读入数据集后，使用数据集创建自己的词汇表
vocab = Vocabulary.from_instances(train_dataset + validation_dataset)

# 构建模型，选择嵌入层和隐藏层的大小
EMBEDDING_DIM = 6
HIDDEN_DIM = 6

# 为了嵌入标记，我们将使用BasicTextFieldEmbedder，它从索引名称到嵌入进行映射。
# 如果你回到我们定义DatasetReader的地方，默认参数包括一个名为“tokens”的索引，所以我们的映射只需要一个对应于该索引的嵌入。
# 我们使用词汇表来查找我们需要多少嵌入，并使用EMBEDDING_DIM参数来指定输出维度。
# 也可以从预先训练的嵌入开始（例如，GloVe向量），但是没有必要在这个小数据集上做到这一点。
token_embedding = Embedding(num_embeddings=vocab.get_vocab_size('tokens'), embedding_dim=EMBEDDING_DIM)
word_embeddings = BasicTextFieldEmbedder({"tokens": token_embedding})

# 接下来我们需要指定序列编码器。这里对PytorchSeq2SeqWrapper的需求有点不幸（如果你使用配置文件就不用担心了），但是这里需要为内置的PyTorch模块添加一些额外的功能（和更简洁的接口）。
# 在AllenNLP中，我们首先完成所有批处理，因此我们也指定了它。
lstm = PytorchSeq2SeqWrapper(torch.nn.LSTM(EMBEDDING_DIM, HIDDEN_DIM, batch_first=True))
model = LstmTagger(word_embeddings, lstm, vocab)

optimizer = optim.SGD(model.parameters(), lr=0.1)


iterator = BucketIterator(batch_size=2, sorting_keys=[("sentence", "num_tokens")])
iterator.index_with(vocab)

# 现在我们实例化我们的Trainer并运行它。在这里，我们告诉它运行1000次迭代并且如果它花费10个时期而没有验证度量改进则提前停止训练。
# 默认验证度量标准是损失（通过变小来改善），但也可以指定不同的度量和方向（例如，精度应该变大）。
trainer = Trainer(model=model,
                  optimizer=optimizer,
                  iterator=iterator,
                  train_dataset=train_dataset,
                  validation_dataset=validation_dataset,
                  patience=10,
                  num_epochs=1000)
trainer.train()
predictor = SentenceTaggerPredictor(model, dataset_reader=reader)
tag_logits = predictor.predict("The dog ate the apple")['tag_logits']
tag_ids = np.argmax(tag_logits, axis=-1)
print([model.vocab.get_token_from_index(i, 'labels') for i in tag_ids])

4. 如何保存训练好的模型

with open(r"C:/Users/01/Desktop/机器学习作业/AllenNLP/model/model.th", 'wb') as f:
    torch.save(model.state_dict(), f)
vocab.save_to_files(r"C:/Users/01/Desktop/机器学习作业/AllenNLP/model/vocabulary")
# And here's how to reload the model.
vocab2 = Vocabulary.from_files(r"C:/Users/01/Desktop/机器学习作业/AllenNLP/model/vocabulary")
model2 = LstmTagger(word_embeddings, lstm, vocab2)
with open(r"C:/Users/01/Desktop/机器学习作业/AllenNLP/model/model.th", 'rb') as f:
    model2.load_state_dict(torch.load(f))
predictor2 = SentenceTaggerPredictor(model2, dataset_reader=reader)
tag_logits2 = predictor2.predict("The dog ate the apple")['tag_logits']
assert tag_logits2 == tag_logits

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

自然语言处理N天-AllenNLP学习（实现简单的词性标注）

1. 前言

2. 引入库

3.实现一个简单的LSTM词性标注

4. 如何保存训练好的模型

推荐阅读更多精彩内容