登录注册写文章

使用斯坦福ner工具训练自己的模型

九乡河的小香瓜

使用斯坦福ner工具训练自己的模型

首先，你得去官网下载工具包。

在stanford-ner-2018-10-16下面

qa.txt是训练的原始文本。qa.tok是每一行一个单词

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer qa.txt > qa.tok

手动给qa.tok里的每个单词标注

需要有一个austen.prop，里面会指定训练文件

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop

之后会生成一个ner-model.ser.gz

测试，需要一个测试文件，该文件也是每行一个单词，每个单词后面有标注

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer testQA.txt > testQA.tok

测试测试文件里的准确率

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile testQA.tok

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

在 NLTK 中使用 Stanford NLP 工具包
src: http://www.zmonster.me/2016/06/08/use-stanford-nlp-p...
阿o醒阅读 17,352评论 2赞 12
资源|开发 NLP | ML | DM 的Java工具包汇总
文章来源：GitHub 自然语言处理 CoreNLP：斯坦福大学的CoreNLP提供一系列的自然语言处理工具，输入...
Major术业阅读 756评论 0赞 1
比较全的NLP参考资源
NLP 自然语言处理（Natural Language Processing）是深度学习的主要应用领域之一。教程...
御风之星阅读 3,091评论 0赞 17
小风景
远山一幅淡墨的水彩画绿色蜻蜓伫立野茶树上憇息野茶的清香遥远的尘世里曾醉了几许世俗的灵魂蜻蜓微微...
淮河小妖阅读 204评论 0赞 0

赞1赞

赞赏

手机看全文