jieba 中文分词教程

【嵌牛导读】 jieba 中文分词教程

【嵌牛鼻子】jieba  中文分词

【嵌牛提问】如何使用jieba 进行中文分词?

【嵌牛正文】

参考文章:https://www.jianshu.com/p/883c2171cdb5

jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

1.支持 3 种分词模式:精确模式、全模式、搜索引擎模式

2.支持繁体分词

3.支持自定义词典


第一步 导入模块

可使用jieba.cut和jieba.cut_for_search方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中:

jieba.cut和jieba.lcut接受 3 个参数:

需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

cut_all 参数:是否使用全模式,默认值为False

HMM 参数:用来控制是否使用 HMM 模型,默认值为True


jieba.cut_for_search和jieba.lcut_for_search接受 2 个参数:

需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

HMM 参数:用来控制是否使用 HMM 模型,默认值为True

# 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8


第二步 全模式分词

【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学


第二步 精确模式分词

【精确模式】:他/ 来到/ 上海交通大学

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容