1、结巴分词
https://pypi.org/project/jieba/
是我之前工程上用的分词工具,因为之前工程紧急,所以当时只知道这个,现在闲下来一些时间,才有时间了解更多分词工具。
python语言,个人觉得用户使用度上比较方便,容易理解。分词效果也比较好,加停词表,加字典也比较容易。可以过滤词性、统计词频(tf-idf),功能完整,效果不错,用起来简单。
2、HanLP
http://hanlp.linrunsoft.com/
全称Han Language Processing
我没用过,不知道效果。
Java语言,看过官网的示例,觉得是因为语言的关系,所以导致用起来会比较麻烦(或者说,看起来要写更多的语句,这样比较准确)。
有时间了可以写一个简单的小demo试一下
3、pynlpir分词
中科院计算所
python语言
https://github.com/NLPIR-team/NLPIR
今天大概学习了一下,找了网上的几个容易产生歧义的几个测试语句。
感觉没有结巴分词效果好。
这是一个代表,我在网上找到的一些容易歧义的测试语句,结巴总体效果比pynlpir分词效果好多了
4、snownlp
python语言
直接用pip安装,比较简单
下面看一下测试用例下,几种分词方式的表现。
还是结巴最好。
5、ansj分词器
Java语言
https://github.com/NLPchina/ansj_seg
6、LTP
哈工大
有Java也有python
需要Visual C++
7、thulac分词
清华大学
python语言,Java语言也有
这个效果还是不如结巴。
8、还有一些分词的算法,参照下面的博客
https://blog.csdn.net/m0_37710823/article/details/76064408
9、补充一个
老公一直让我看N-Gram算法,烦人不,这个是按照字数分词,所以不能单独作为分词存在,只能用作计算词频或者相似度的辅助。
行了吧,真烦人。
10、再来更新一波(pkuseg-python)
https://github.com/lancopku/PKUSeg-python
上面是GitHub的网址
北京大学
python语言
下面是机器之心对pkuseg的简介
https://www.jiqizhixin.com/articles/2019-01-09-12
下面是安装方法,真的超级人性化,好安装。