jieba 中文分词教程

【嵌牛导读】 jieba 中文分词教程

【嵌牛鼻子】jieba 中文分词

【嵌牛提问】如何使用jieba 进行中文分词？

【嵌牛正文】

参考文章：https://www.jianshu.com/p/883c2171cdb5

jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：

1.支持 3 种分词模式：精确模式、全模式、搜索引擎模式

2.支持繁体分词

3.支持自定义词典

第一步导入模块

可使用jieba.cut和jieba.cut_for_search方法进行分词，两者所返回的结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语（unicode），或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中：

jieba.cut和jieba.lcut接受 3 个参数：

需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）

cut_all 参数：是否使用全模式，默认值为False

HMM 参数：用来控制是否使用 HMM 模型，默认值为True

jieba.cut_for_search和jieba.lcut_for_search接受 2 个参数：

需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）

HMM 参数：用来控制是否使用 HMM 模型，默认值为True

# 尽量不要使用 GBK 字符串，可能无法预料地错误解码成 UTF-8

第二步全模式分词

【全模式】：他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学

第二步精确模式分词

【精确模式】：他/ 来到/ 上海交通大学

最后编辑于：2021.06.19 11:14:45

jieba 中文分词教程

推荐阅读更多精彩内容