基本原理 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG); 用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之前版本的trie树存储词库,想想也是,python中实现的trie树是基于dict类型的数据结构而且dict中又嵌套dict 类型,这样嵌套很深,导致内存耗费严重 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合; 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 参考链接 https://blog.csdn.net/daniel_ustc/category_5778483.html