jieba分词介绍

Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同小异,这里先了解一下结巴分词

一.安装

pip install jieba

jieba -v

二、分词模式

结巴中文分词支持的三种分词模式包括:

(1) 精确模式:试图将句子最精确地切开,适合文本分析;

(2) 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义问题;

(3) 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

分词模式

三.新词识别

新词识别

四.自定义词典

自定义词典

可以看到,结巴分词工具认出了专有名词”太和殿”,但没有认出”乾清宫”和”黄琉璃瓦”。也就是说,专有名词”乾清宫”和”黄琉璃瓦”可能因分词而分开,这也是很多分词工具的一个缺陷。为此,Jieba分词支持开发者使用自定定义的词典,以便包含jieba词库里没有的词语。虽然结巴有新词识别能力,但自行添加新词可以保证更高的正确率,尤其是专有名词。

自定义词典

词典格式和dict.txt一样,一个词占一行; 每一行分三部分,第一部分为词语,中间部分为词频,最后部分为词性(可省略,ns为地点名词),用空格隔开。

咱们在jieba的安装目录下添加mydict.txt,内容为

自定义词典

更新代码,主要是添加加载mydict.txt的代码:

mydict

五.去除停用词

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,比如“的”、“是”、“而且”、“但是”、”非常“等。这些字或词即被称为Stop Words(停用词)。

stopword
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • jieba分词,学习,为了全面了解该模块,,预设学习路线:官方文档——优秀博客文章——实践学习 官方文档部分 (文...
    竹林徒儿阅读 9,781评论 1 12
  • 1.安装及入门介绍 推荐直接 pip install jieba 结巴中文分词涉及到的算法包括: (1)基于Tri...
    MiracleJQ阅读 14,539评论 0 5
  • 参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...
    领悟悟悟阅读 9,845评论 1 1
  • Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...
    Mr_Du_Biao阅读 3,251评论 0 0
  • 传销为什么吸引人?一、利用人性的弱点想快速至富又不必用过多猜精力才智。二、利用普通人群文化程度不高、综合...
    楊冰阅读 2,833评论 0 2

友情链接更多精彩内容