结巴分词:
Tree
DAG
route概率
hmm
收到一篇文章,我要对其切词,大概思路
- step1:去杂质(火星文什么的)
- step2:匹配本地词表,就能分好一部门词,没分好的以单个字input-HMM
- step3:HMM后得到一个分,满足阈值就合成词,不满足就单个字
树:根据词库,就可以画出词树
把词库变成树,是为了快速遍历,节约空间
DAG图:匹配树的时候,就可以构建出DAG字典
route概率,就是为了从DAG中取出最合适的切词,
概率化比较DAG线路,对DAG每个组合取概率
2个参数,倒序累加概率,前进的节点