注:本文所有代码均经过Python 3.7实际运行检验,保证其严谨性。
本文阅读时间约为3分钟。
今天要介绍的是jieba库。它是一个非常优秀的第三方库,主要功能是中文分词。所谓中文分词,就是将连续的字序列按照一定的规范重新组合成词序列的过程。
由于jieba库是第三方库,因此需要额外安装。安装方法依然是命令行输入conda install jieba 或 pip install jieba。
关于第三方库的安装,更多详情请移步至:Python零基础入门学习20:常用第三方库之PyInstaller库
jieba分词的原理
jieba分词依靠中文词库。利用一个中文词库,确定汉字之间的关联概率。
jieba分词有三种模式,分别是精确模式、全模式和搜索引擎模式。
精确模式——把文本精确的切分开,不存在冗余单词。
全模式——把文本中所有可能地词语都扫描出来,有冗余。
搜索引擎模式——在精确模式的基础上,对长词再次切分。
jieba库常用函数
jieba.lcut(s)——精确模式,返回一个列表类型的分词结果。
import jieba
jieba.lcut('我来自中华人民共和国。')
Out[8]: ['我', '来自', '中华人民共和国', '。']
jieba.lcult(s, cut_all = True)——全模式,返回一个列表类型的分词结果,存在冗余。
jieba.lcut('我来自中华人民共和国。', cut_all=True)
Out[9]: ['我', '来自', '中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '', '']
jieba.lcut_for_search(s)——搜索引擎模式,返回一个列表类型的分词结果,存在冗余。
jieba.lcut_for_search('我来自中华人民共和国。')
Out[10]: ['我', '来自', '中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '。']
jieba.add_word(w)——向分词词典增加新词w。比如:
jieba.add_word("喜大普奔")
To be continued.