HMM

image.png

结巴分词:

Tree
DAG
route概率
hmm

收到一篇文章,我要对其切词,大概思路

  • step1:去杂质(火星文什么的)
  • step2:匹配本地词表,就能分好一部门词,没分好的以单个字input-HMM
  • step3:HMM后得到一个分,满足阈值就合成词,不满足就单个字

树:根据词库,就可以画出词树

把词库变成树,是为了快速遍历,节约空间

image.png

DAG图:匹配树的时候,就可以构建出DAG字典

image.png

route概率,就是为了从DAG中取出最合适的切词,

概率化比较DAG线路,对DAG每个组合取概率
2个参数,倒序累加概率,前进的节点


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容