Python笔记_6_jieba 分词自定义词典问题

自定义长词,能够被jieba分出来。

自定义短词,和重新组合字的新词,不能被结巴分出。

即,自定义词典中的词只能是结巴分出的词的组合,否则没有任何效果。

测试代码:

#encoding=utf-8  

import jieba  

import os  

import sys  

test_text="电话号码查询"  

#精确模式  

seg_list = jieba.cut(test_text,cut_all=False)  

seg_list =" ".join(seg_list)  

print "cut_all=False: "+seg_list  

#全模式  

seg_list2 = jieba.cut(test_text,cut_all=True)  

seg_list2 =" ".join(seg_list2)  

print "cut_all=True: "+seg_list2  

# 搜索引擎模式  

seg_list3 = jieba.cut_for_search(test_text)  

seg_list3 =" ".join(seg_list3)  

print "cut_for_search: "+seg_list3  

自定义三个字的词:

jieba.add_word("电话号") 

结果:

cut_all=False: 电话号码 查询  

cut_all=True: 电话 电话号 电话号码 号码 查询  

cut_for_search: 电话 号码 电话号 电话号码 查询 

自定义短词:

jieba.add_word("电") 

结果:

cut_all=False: 电话号码 查询  

cut_all=True: 电话 电话号码 号码 查询  

cut_for_search: 电话 号码 电话号码 查询 

自定义长词:

jieba.add_word("电话号码查询") 

结果:

cut_all=False: 电话号码查询  

cut_all=True: 电话 电话号码 电话号码查询 号码 查询  

cut_for_search: 电话 号码 查询 电话号码查询 

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.安装及入门介绍 推荐直接 pip install jieba 结巴中文分词涉及到的算法包括: (1)基于Tri...
    MiracleJQ阅读 13,316评论 0 5
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,242评论 19 139
  • 功能1):分词 jieba.cut() 方法接受两个输入参数:1)第一个参数为需要分词的字符串2)cut_all参...
    商三郎阅读 415评论 0 0
  • 关键词:windows平台下jieba安装、三种模式比较、自定义词典、停用词语料、词频统计、词云生成 jieba简...
    秋灯锁忆阅读 4,527评论 0 2
  • 活动指示器 活动指示器可以消除用户的心理等待时间,并且如果我们不知道什么时候结束任务就可以使用活动指示器。活动指示...
    AmazingMiracle阅读 2,632评论 0 1