pkuseg的自定义词库过大会导致出现严重的分词BUG?

1.背景说明

【前情提要】 怀着异常激动的心情测试了一下北大刚发布的中文分词库,然后加载了之前整理的自定义词汇,发现出现了很严重的分词问题,希望有人能帮忙解决。

2. 上代码

   [IN] content = "我叫马化腾,我想学区块链,你说好不好啊,天青色等烟雨,而我在等你,月色被打捞器,晕开了结局"
        dict = utils.read("./dict.txt")
        pku = pkuseg.pkuseg(user_dict=dict)
        res = pku.cut(content)
        print(res)
  [OUT] loading model
        finish
        ['我', '叫', '马', '化', '腾', ',', '我', '想', '学', '区', '块', '链', ',', '你', '说', '好', '不', '好', '啊', ',', '天', '青', '色', '等', '烟', '雨', ',', '而', '我', '在', '等', '你', ',', '月', '色', '被', '打', '捞', '器', ',', '晕', '开', '了', '结', '局']

3. 关键信息

  • dict.txt是之前项目整理的自定义词库,文件大小 108MB,词条数量 ≈ 673万,如图所示:


    enter image description here
  • 同样在jieba分词中不会出现这样的问题,分词结果正常

4. 问题回述

所以自定义词库内容过多,会导致出现分词异常?如何解决这个异常?


有更多问题也可以和本人直接沟通 微信:w63594021

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 12.7 为期一周的思维导图初阶课程第八期在这天结业了,临时接到郡主邀请串场做结营典礼的支持,机会来了就不能错过,...
    陆娴1983阅读 1,579评论 0 0
  • CoreImage是苹果自带的关于图像处理的框架,不仅可以做滤镜,还可以做人脸识别,我们今天先来简单的了解一下滤镜...
    melody5阅读 2,532评论 0 0
  • 文/山妮 祈祷吧 多些这样的粉沫 真正多了又能减轻什么呢 早已不能骑车去山野 温热的一部分继续等待结冰 这也不等于...
    山妮风儿阅读 1,527评论 0 2
  • 昨天拿到新公司的第一笔工资,心理踏实了不少,如同事说的就是打工,但是为了家人感觉很好,还是努力的赚钱吧,为了学龄的...
    其其菱菱阅读 955评论 0 0
  • 12月的第一个周末。早上慢慢醒来,躺在床上稍微静静待会。哈哈一醒来就有好几个念头闪过~脑袋真的不安分呀。 换了条路...
    清慈阅读 1,456评论 0 0