【嵌牛导读】 jieba 中文分词教程
【嵌牛鼻子】jieba 中文分词
【嵌牛提问】如何使用jieba 进行中文分词?
【嵌牛正文】
参考文章:https://www.jianshu.com/p/883c2171cdb5
jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:
1.支持 3 种分词模式:精确模式、全模式、搜索引擎模式
2.支持繁体分词
3.支持自定义词典
第一步 导入模块
可使用jieba.cut和jieba.cut_for_search方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中:
jieba.cut和jieba.lcut接受 3 个参数:
需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
cut_all 参数:是否使用全模式,默认值为False
HMM 参数:用来控制是否使用 HMM 模型,默认值为True
jieba.cut_for_search和jieba.lcut_for_search接受 2 个参数:
需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
HMM 参数:用来控制是否使用 HMM 模型,默认值为True
# 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8
第二步 全模式分词
【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学
第二步 精确模式分词
【精确模式】:他/ 来到/ 上海交通大学