一,什么是分词
分词就是指将文本数据转换为一个个的单词,是中文自然语言处理的基础,将连续的中文文本切分成一个一个的词语或字的过程
像借用思知的分词工具,实例如下
分词就是通过某种技术将连续的文本分割成更具有语言语义学上意义的词
二,分词工具
目前常用的分词工具有jieba、SnowNLP、THULAC、HanLP等
以jieba为例,可通过pip install jieba安装
在使用的时候,调用对应的内置函数即可
import jieba
s = '分词就是指将文本数据转换为一个个的单词,是中文自然语言处理的基础,将连续的中文文本切分成一个一个的词语或字的过程。'
print(jieba.lcut(s))
输出为
但在有的时候,这种分词分的并不是很好,达不到要求,在工程中常常就直接把每个字当成一个词,即用list()函数
list(s)
以下是一些常用的中文文本分词工具:
1. jieba(结巴分词):
特点:开源、高性能、支持多种分词模式,包括精确模式、全模式、搜索引擎模式等。
使用:可以用于命令行、Python API等。
链接:jieba GitHub
2. SnowNLP:
特点:Python库,提供了一些基本的中文文本处理功能,包括分词、词性标注等。
使用:简单易用,适用于一些简单的文本分析任务。
链接:[SnowNLP GitHub](GitHub - isnowfy/snownlp: Python library for processing Chinese text)
3. THULAC(清华大学分词工具):
特点:由清华大学自然语言处理与社会人文计算实验室开发,支持词性标注和命名实体识别。
使用:提供了C++、Python、Java等多个版本的接口。
4. HanLP:
特点:由中国人工智能协会推动的中文自然语言处理工具包,支持多种功能,包括分词、词性标注、命名实体识别等。
使用:提供了Java和Python版本。
5. pkuseg:
特点:由北京大学语言计算与机器学习研究组开发,使用深度学习模型,具有较高的分词准确性。
使用:提供Python API,并支持多种分词模式。
6. LTP(语言技术平台):
特点:由哈尔滨工业大学社会计算与信息检索研究中心开发,提供多种自然语言处理功能,包括分词、词性标注、依存句法分析等。
使用:提供Java、Python等多个版本。
链接:[LTP 官网](语言云(语言技术平台云 LTP-Cloud))
7. NLPIR:
特点:中文信息处理主要工具包,提供中文文本分析的多项功能,包括分词、词性标注、关键词提取等。
使用:提供C++、Java、Python等多个版本。
链接:NLPIR 官网