Python零基础入门学习21:常用第三方库之jieba库

:本文所有代码均经过Python 3.7实际运行检验,保证其严谨性。

本文阅读时间约为3分钟

今天要介绍的是jieba库。它是一个非常优秀的第三方库,主要功能是中文分词。所谓中文分词,就是将连续的字序列按照一定的规范重新组合成词序列的过程。

由于jieba库是第三方库,因此需要额外安装。安装方法依然是命令行输入conda install jieba 或 pip install jieba。

关于第三方库的安装,更多详情请移步至:Python零基础入门学习20:常用第三方库之PyInstaller库

jieba分词的原理

jieba分词依靠中文词库。利用一个中文词库,确定汉字之间的关联概率。

jieba分词有三种模式,分别是精确模式全模式搜索引擎模式

精确模式——把文本精确的切分开,不存在冗余单词。

全模式——把文本中所有可能地词语都扫描出来,有冗余。

搜索引擎模式——在精确模式的基础上,对长词再次切分。

jieba库常用函数

jieba.lcut(s)——精确模式,返回一个列表类型的分词结果。

import jieba

jieba.lcut('我来自中华人民共和国。')
Out[8]: ['我', '来自', '中华人民共和国', '。']

jieba.lcult(s, cut_all = True)——全模式,返回一个列表类型的分词结果,存在冗余。

jieba.lcut('我来自中华人民共和国。', cut_all=True)
Out[9]: ['我', '来自', '中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '', '']

jieba.lcut_for_search(s)——搜索引擎模式,返回一个列表类型的分词结果,存在冗余。

jieba.lcut_for_search('我来自中华人民共和国。')
Out[10]: ['我', '来自', '中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '。']

jieba.add_word(w)——向分词词典增加新词w。比如:

jieba.add_word("喜大普奔")

To be continued.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。