Python零基础入门学习21：常用第三方库之jieba库

注：本文所有代码均经过Python 3.7实际运行检验，保证其严谨性。

本文阅读时间约为3分钟。

今天要介绍的是jieba库。它是一个非常优秀的第三方库，主要功能是中文分词。所谓中文分词，就是将连续的字序列按照一定的规范重新组合成词序列的过程。

由于jieba库是第三方库，因此需要额外安装。安装方法依然是命令行输入conda install jieba 或 pip install jieba。

jieba分词依靠中文词库。利用一个中文词库，确定汉字之间的关联概率。

jieba分词有三种模式，分别是精确模式、全模式和搜索引擎模式。

精确模式——把文本精确的切分开，不存在冗余单词。

全模式——把文本中所有可能地词语都扫描出来，有冗余。

搜索引擎模式——在精确模式的基础上，对长词再次切分。

jieba.lcut(s)——精确模式，返回一个列表类型的分词结果。

import jieba

jieba.lcut('我来自中华人民共和国。')
Out[8]: ['我', '来自', '中华人民共和国', '。']

jieba.lcult(s, cut_all = True)——全模式，返回一个列表类型的分词结果，存在冗余。

jieba.lcut('我来自中华人民共和国。', cut_all=True)
Out[9]: ['我', '来自', '中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '', '']

jieba.lcut_for_search(s)——搜索引擎模式，返回一个列表类型的分词结果，存在冗余。

jieba.lcut_for_search('我来自中华人民共和国。')
Out[10]: ['我', '来自', '中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '。']

jieba.add_word(w)——向分词词典增加新词w。比如：

jieba.add_word("喜大普奔")

To be continued.