中文分词库——jieba

jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。

jieba库的安装和使用很简单

pip install jieba        #安装

import jieba            #引用

jieba库支持三种分词模式:

1 精确模式:将句子最精确的切开,适合文本分析。

2 全模式:把句子中所有成词的词语都扫描出来,速度非常快,但不能解决歧义。

3 搜索引擎模式: 在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

jieba库的主要函数如下:

jieba.lcut(s)        #精确模式,返回一个列表类型

jieba.lcut(s, cut_all=True)        #全模式,返回一个列表类型

jieba.lcut_for_search(s)        #搜索引擎模式,返回一个列表类型

jieba.add_word(w)                #向分词词典中增加新词w

使用范例如下:

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 转自 进击的Coder 公众号 原理 中文分词,即 Chinese Word Segmentation,即将一个汉...
    Epiphron阅读 13,987评论 2 56
  • 基于《Python语言程序设计基础(第2版)》 第一部分 初识Python语言 第1章 程序设计基本方法 1.1 ...
    柄志阅读 27,682评论 4 44
  • jieba分词,学习,为了全面了解该模块,,预设学习路线:官方文档——优秀博客文章——实践学习 官方文档部分 (文...
    竹林徒儿阅读 9,817评论 1 12
  • 前言 从本文开始,我们进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习...
    lanlantian123阅读 10,709评论 0 2
  • 我们服务行业,客户满意是我们的最高追求,以客户的需求为需求,以长期合作为目标,只有客户满意了,我们才能更好的工作。
    孙倩阅读 1,396评论 0 0

友情链接更多精彩内容