NLP(二):分词

一,什么是分词

分词就是指将文本数据转换为一个个的单词,是中文自然语言处理的基础,将连续的中文文本切分成一个一个的词语或字的过程

像借用思知的分词工具,实例如下

分词就是通过某种技术将连续的文本分割成更具有语言语义学上意义的词

二,分词工具

目前常用的分词工具有jieba、SnowNLP、THULAC、HanLP等

以jieba为例,可通过pip install jieba安装

在使用的时候,调用对应的内置函数即可

import jieba

s = '分词就是指将文本数据转换为一个个的单词,是中文自然语言处理的基础,将连续的中文文本切分成一个一个的词语或字的过程。'
print(jieba.lcut(s))

输出为

但在有的时候,这种分词分的并不是很好,达不到要求,在工程中常常就直接把每个字当成一个词,即用list()函数

list(s)

以下是一些常用的中文文本分词工具:

1. jieba(结巴分词):

  • 特点:开源、高性能、支持多种分词模式,包括精确模式、全模式、搜索引擎模式等。

  • 使用:可以用于命令行、Python API等。

  • 链接:jieba GitHub

2. SnowNLP:

3. THULAC(清华大学分词工具):

  • 特点:由清华大学自然语言处理与社会人文计算实验室开发,支持词性标注和命名实体识别。

  • 使用:提供了C++、Python、Java等多个版本的接口。

  • 链接:THULAC GitHub

4. HanLP:

  • 特点:由中国人工智能协会推动的中文自然语言处理工具包,支持多种功能,包括分词、词性标注、命名实体识别等。

  • 使用:提供了Java和Python版本。

5. pkuseg:

  • 特点:由北京大学语言计算与机器学习研究组开发,使用深度学习模型,具有较高的分词准确性。

  • 使用:提供Python API,并支持多种分词模式。

  • 链接:pkuseg GitHub

6. LTP(语言技术平台):

  • 特点:由哈尔滨工业大学社会计算与信息检索研究中心开发,提供多种自然语言处理功能,包括分词、词性标注、依存句法分析等。

  • 使用:提供Java、Python等多个版本。

  • 链接:[LTP 官网](语言云(语言技术平台云 LTP-Cloud))

7. NLPIR:

  • 特点:中文信息处理主要工具包,提供中文文本分析的多项功能,包括分词、词性标注、关键词提取等。

  • 使用:提供C++、Java、Python等多个版本。

  • 链接:NLPIR 官网

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容