文本分析-自定义词典

在做本文分析时,由于有较多的专用术语和名词,在jieba词库是没有的词,需要添加自定义词典,保证更高的正确率。

如果需要添加的专业词数量不多,可以直接添加,例如:
jieba.add_word('苏木素')
jieba.add_word('负压液管')
也可以删除jieba词库中的词,例如
jieba.del_word('自定义词')

如果需要添加的专业词数量比较多,需要用自定义词典
jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 在接下来的分词练习中将使用到四川大学公共管理学院的一篇新闻进行练习,文本如下: 为贯彻落实党的十九大精神,不断提升...
    nicokani阅读 5,095评论 0 4
  • 参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...
    领悟悟悟阅读 9,860评论 1 1
  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 11,386评论 1 8
  • 0 引言   jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模...
    Gaius_Yao阅读 118,932评论 3 82
  • 《怦然心动》,美国电影,类型:爱情,喜剧。 如果单单是从爱情的角度来看这部电影,并没有太多的新意,无非是“一见钟情...
    婺源王学雄阅读 1,765评论 0 1

友情链接更多精彩内容