Python jieba 中文分词 基本用法

安装

  • 自动安装 pip install jieba / pip3 install jieba
  • 手动安装 github/jieba下载源码,将 jieba 目录放于当前目录或者 site-packages 目录
  • 通过 import jieba 引用

分词

  • api
cut(self, sentence, cut_all=False, HMM=True) # 返回值是迭代器
# sentence:待分词字符串
# cut_all:全模式开启
# HMM:使用HMM,会多发现一些新词
lcut(self, sentence, cut_all=False, HMM=True)  # 分词结果用列表返回
cut_for_search(self, sentence, HMM=True) # 搜索引擎模式分词,会把keyword都列出来
  • 使用
seg_list = jieba.cut("我在看维达", cut_all=False)
print(" ".join(seg_list)) 

自定义词典

  • 准备词典,
    文件名:dict_test.txt
    内容:词语 词频(可略) 词性(可略),每个词一行
    看维达 10
    
  • 载入词典 jieba.load_userdict("dict_test.txt")
  • 动态调整
    1. 新增词汇 add_word(word, freq=None, tag=None)
    2. 删除词汇 del_word(word)
    3. 词频调整
    suggest_freq(segment, tune=True)
    jieba.suggest_freq(('中', '将'), True) # 增加分开的概率
    jieba.suggest_freq('台中', True) # 增加合并的概率
    

词性标注

import jieba.posseg as pseg
words = pseg.cut("我在看维达")
for word, flag in words:
    print(f"{word} {flag}")

停用词

python 生成词云图

关键词提取

并行计算

参考文献

  1. github jieba
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容