Jieba分词原理与解析

1 HMM模型

image.png

马尔科夫过程:

image.png

image.png
  • 以天气判断为例:引出隐马尔科夫模型


    image.png

    image.png

以天气判断为例:由海藻信息推测天气

image.png

于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。这就是本文重点介绍的隐马尔可夫模型。
隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。

  • 马尔科夫假设


    image.png

    image.png

    image.png

    image.png

2 三个问题

image.png

image.png

image.png

image.png

image.png

image.png

image.png
  • 源码架构
    ├── jieba
    │ ├── analyse
    │ │ ├── analyzer.py
    │ │ ├── idf.txt
    │ │ ├── init.py
    │ │ ├── textrank.py
    │ │ └── tfidf.py
    │ ├── _compat.py
    │ ├── dict.txt
    │ ├── finalseg
    │ │ ├── init.py
    │ │ ├── prob_emit.p
    │ │ ├── prob_emit.py
    │ │ ├── prob_start.p
    │ │ ├── prob_start.py
    │ │ ├── prob_trans.p
    │ │ └── prob_trans.py
    │ ├── init.py
    │ ├── main.py
    │ └── posseg
    │ ├── char_state_tab.p
    │ ├── char_state_tab.py
    │ ├── init.py
    │ ├── prob_emit.p
    │ ├── prob_emit.py
    │ ├── prob_start.p
    │ ├── prob_start.py
    │ ├── prob_trans.p
    │ ├── prob_trans.py
    │ └── viterbi.py
    ├── LICENSE
    ├── MANIFEST.in
    ├── README.md
    ├── setup.py
    └── test
image.png

3 Jieba源码分块解析

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

Jieba应用实践

image.png

image.png

image.png

image.png

image.png

小白学习 无关利益

感谢:

隐马尔可夫模型(HMM)攻略
HMM的(五个基本要素,三个假设,三个解决的问题)
HMM学习最佳范例七:前向-后向算法3
中文分词技术(中文分词原理)
鬼吹灯文本挖掘
https://blog.csdn.net/zhuzuwei/article/details/80775078

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容