登录注册写文章

自然语言处理N天-AllenNLP学习（How-to 01）

我的昵称违规了

自然语言处理N天-AllenNLP学习（How-to 01）

新建 Microsoft PowerPoint 演示文稿 (2).jpg

有一篇帖子总结了学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。

去除停用词，建立词典，加载各种预训练词向量，Sentence -> Word ID -> Word Embedding的过程(Tobias Lee：文本预处理方法小记)，其中不仅需要学习pytorch，可能还要学习spacy，NLTK，numpy，pandas，tensorboardX等常用python包。
用到RNN时，还要经过pad,pack,pad的过程，像这样的很多函数在使用时需要有数学基础加上简单的实践，感觉对一个新人来说，高维数据的流动有点抽象，不容易理解。
数据集的读取，tensorboardX的使用。。。。各种东西要学习。在运行别人的代码后打印出信息，不仅看着上档次，而且可以看到很多实用的信息。。。

AllenNLP是在pytorch基础上的封装，它的目标是处理NLP任务，可以减少很多额外的学习。

分词，帮你用spacy，NLTK，或者简单的按空格分词处理。
数据集的读取，它内置了很多数据集的读取，你可以在通过学习它的读取方式，在它的基础上对自己需要的数据集进行读取。、
在Sentence -> Word ID -> Word Embedding的过程中，Glove，ELMo，BERT等常用的都可以直接使用，需要word，char粒度的都可以。
log打印输出，在内置的输出项之外，你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中，修改参数进行实验很方便。

我又回来了，Pytorch的学习也是为了熟悉AllenNLP结构，所以，在完成基础tutorial之后又折回来继续学AllenNLP。四月份的目标是复现那篇论文中的结构并使用Finetuning完成Transformer。
今天开始AllenNLP入门的第二部分How-to。总共包括七个小节。

Create your own Configuration File
How to train a model with lazy data
How to train and use a Transformer-based ELMo
How to Debug Your AllenNLP Code
How to visualize model internals (BETA)
Using pre-trained ELMo representations
Using span representations

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

自然语言处理N天-AllenNLP学习（构建自己的模型）
本文基于AllenNLP英文tutorial翻译，其中不少错误，仅作为个人学习记录有一篇帖子总结了一下学习处理NL...
我的昵称违规了阅读 956评论 0赞 0
自然语言处理N天-AllenNLP学习（实现简单的词性标注）
1. 前言在了解了Transformer之后，这个模型是否可用呢？现在遇到的问题是，目前试了几个模型（LSTM、...
我的昵称违规了阅读 2,034评论 0赞 3
自然语言处理N天-AllenNLP学习（模型训练、评价和预测）
本文基于AllenNLP英文tutorial翻译，其中不少错误，仅作为个人学习记录有一篇帖子总结了一下学习处理NL...
我的昵称违规了阅读 1,886评论 0赞 1
自然语言处理N天-AllenNLP学习（设定文档解读）
本文基于AllenNLP英文tutorial翻译，其中不少错误，仅作为个人学习记录有一篇帖子总结了一下学习处理NL...
我的昵称违规了阅读 2,096评论 0赞 1
恋春
你看上去如此美丽你的面庞从未改变只有你 ...
mlssay阅读 331评论 0赞 4

1赞2赞

赞赏

手机看全文