NLP（二）：分词

一，什么是分词

分词就是指将文本数据转换为一个个的单词，是中文自然语言处理的基础，将连续的中文文本切分成一个一个的词语或字的过程

像借用思知的分词工具，实例如下

分词就是通过某种技术将连续的文本分割成更具有语言语义学上意义的词

二，分词工具

目前常用的分词工具有jieba、SnowNLP、THULAC、HanLP等

以jieba为例，可通过pip install jieba安装

在使用的时候，调用对应的内置函数即可

import jieba

s = '分词就是指将文本数据转换为一个个的单词，是中文自然语言处理的基础，将连续的中文文本切分成一个一个的词语或字的过程。'
print(jieba.lcut(s))

输出为

但在有的时候，这种分词分的并不是很好，达不到要求，在工程中常常就直接把每个字当成一个词，即用list()函数

list(s)

以下是一些常用的中文文本分词工具：

1. jieba（结巴分词）：

特点：开源、高性能、支持多种分词模式，包括精确模式、全模式、搜索引擎模式等。
使用：可以用于命令行、Python API等。
链接：jieba GitHub

2. SnowNLP：

特点：Python库，提供了一些基本的中文文本处理功能，包括分词、词性标注等。
使用：简单易用，适用于一些简单的文本分析任务。
链接：[SnowNLP GitHub](GitHub - isnowfy/snownlp: Python library for processing Chinese text)

3. THULAC（清华大学分词工具）：

特点：由清华大学自然语言处理与社会人文计算实验室开发，支持词性标注和命名实体识别。
使用：提供了C++、Python、Java等多个版本的接口。
链接：THULAC GitHub

4. HanLP：

特点：由中国人工智能协会推动的中文自然语言处理工具包，支持多种功能，包括分词、词性标注、命名实体识别等。
使用：提供了Java和Python版本。

5. pkuseg：

特点：由北京大学语言计算与机器学习研究组开发，使用深度学习模型，具有较高的分词准确性。
使用：提供Python API，并支持多种分词模式。
链接：pkuseg GitHub

6. LTP（语言技术平台）：

特点：由哈尔滨工业大学社会计算与信息检索研究中心开发，提供多种自然语言处理功能，包括分词、词性标注、依存句法分析等。
使用：提供Java、Python等多个版本。
链接：[LTP 官网](语言云（语言技术平台云 LTP-Cloud）)

7. NLPIR：

特点：中文信息处理主要工具包，提供中文文本分析的多项功能，包括分词、词性标注、关键词提取等。
使用：提供C++、Java、Python等多个版本。
链接：NLPIR 官网

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,431评论 6赞 544
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,637评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,555评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,900评论 1赞 318
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,629评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,976评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,976评论 3赞 448
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,139评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,686评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,411评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,641评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,129评论 5赞 364
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,820评论 3赞 350
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,233评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,567评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,362评论 3赞 400
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,604评论 2赞 380

NLP（二）：分词

一，什么是分词

二，分词工具

推荐阅读更多精彩内容