Python jieba 中文分词基本用法

安装

自动安装 pip install jieba / pip3 install jieba
手动安装 github/jieba下载源码，将 jieba 目录放于当前目录或者 site-packages 目录
通过 import jieba 引用

分词

cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence：待分词字符串
# cut_all：全模式开启
# HMM：使用HMM，会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词，会把keyword都列出来

使用

seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list))

自定义词典

准备词典，

文件名：dict_test.txt
内容：词语 词频（可略） 词性（可略），每个词一行
看维达 10

载入词典 jieba.load_userdict("dict_test.txt")

动态调整

新增词汇 add_word(word, freq=None, tag=None)
删除词汇 del_word(word)
词频调整

suggest_freq(segment, tune=True)
jieba.suggest_freq(('中', '将'), True) # 增加分开的概率
jieba.suggest_freq('台中', True) # 增加合并的概率

词性标注

import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
    print(f"{word} {flag}")

停用词

python 生成词云图

关键词提取

并行计算

参考文献

github jieba

最后编辑于：2019.01.21 18:32:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Python jieba 中文分词基本用法

Python jieba 中文分词基本用法

安装

分词

自定义词典

词性标注

停用词

关键词提取

并行计算

参考文献

相关阅读更多精彩内容

友情链接更多精彩内容

Python jieba 中文分词 基本用法

安装

分词

自定义词典

词性标注

停用词

关键词提取

并行计算

参考文献

相关阅读更多精彩内容

友情链接更多精彩内容

Python jieba 中文分词基本用法