pkuseg的自定义词库过大会导致出现严重的分词BUG？

1.背景说明

【前情提要】怀着异常激动的心情测试了一下北大刚发布的中文分词库,然后加载了之前整理的自定义词汇,发现出现了很严重的分词问题，希望有人能帮忙解决。

2. 上代码

   [IN] content = "我叫马化腾，我想学区块链,你说好不好啊，天青色等烟雨，而我在等你，月色被打捞器，晕开了结局"
        dict = utils.read("./dict.txt")
        pku = pkuseg.pkuseg(user_dict=dict)
        res = pku.cut(content)
        print(res)
  [OUT] loading model
        finish
        ['我', '叫', '马', '化', '腾', '，', '我', '想', '学', '区', '块', '链', ',', '你', '说', '好', '不', '好', '啊', '，', '天', '青', '色', '等', '烟', '雨', '，', '而', '我', '在', '等', '你', '，', '月', '色', '被', '打', '捞', '器', '，', '晕', '开', '了', '结', '局']

3. 关键信息

dict.txt是之前项目整理的自定义词库,文件大小 108MB,词条数量 ≈ 673万,如图所示:

enter image description here
同样在jieba分词中不会出现这样的问题，分词结果正常

4. 问题回述

所以自定义词库内容过多,会导致出现分词异常?如何解决这个异常?

有更多问题也可以和本人直接沟通 微信:w63594021

pkuseg的自定义词库过大会导致出现严重的分词BUG？

1.背景说明

2. 上代码

3. 关键信息

4. 问题回述

推荐阅读更多精彩内容