jieba
“结巴”中文分词:是广泛使用的中文分词工具,具有以下特点:
1)三种分词模式:精确模式,全模式和搜索引擎模式
2)词性标注和返回词语在原文的起止位置( Tokenize)
3)可加入自定义字典
4)代码对 Python 2/3 均兼容
5)支持多种语言,支持简体繁体
顷目地址:https://github.com/fxsjy/jieba
Stanford NLP
Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词,并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同样的实体,指明情绪,提取发言中的开放关系等。
1.一个集成的语言分析工具集;
2.进行快速,可靠的任意文本分析;
3.整体的高质量的文本分析;
4.支持多种主流语言;
5.多种编程语言的易用接口;
6.方便的简单的部署web服务。
•Python 版本stanford nlp 安装
•1)安装stanford nlp自然语言处理包: pip install stanfordcorenlp
•2)下载Stanford CoreNLP文件 https://stanfordnlp.github.io/CoreNLP/download.html
•3)下载中文模型jar包, http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar,
•4)把加压后的Stanford CoreNLP文件夹和下载的stanford-chinese-corenlp-2018-02-27-models.jar放在同一目录下
•5)在Python中引用模型:
•from stanfordcorenlp import StanfordCoreNLP
•nlp = StanfordCoreNLP(r‘path', lang='zh')
Hanlp
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁
Hanlp环境安装
•1、安装Java和Visual C++:我装的是Java 1.8和Visual C++ 2015。
•2、安裝Jpype,conda install -c conda-forge jpype1
•3、测试是否按照成功:
from jpype import *
startJVM(getDefaultJVMPath(), "-ea")
java.lang.System.out.println("Hello World")
shutdownJVM()
比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents