自然语言处理中的分词算法实现

最近实现的3种中文分词算法

  • 基于最大匹配(前向匹配、后向匹配、双向匹配)
  • HMM
  • n-gram

基于最大匹配算法(基于词典)

  1. 最大前向匹配
  • 从左到右取待切分汉语句的m个字符作为匹配字段,m为词典中最长词条个数。
  • 查找词典并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来。
  1. 最大后向匹配
  • 从右到左切分汉语句的m个字符作为匹配字段,m为词典中最长词条个数。
  • 查找词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。
  1. 双向最大向前匹配
  • 将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法。
  • 启发式规则:1.如果正反向分词结果词数不同,则取分词数量较少的那个。2.如果分词结果词数相同。a.分词结果相同,就说明没有歧义,可返回任意一个。 b.分词结果不同,返回其中单字较少的那个。

小结:

基于最大匹配方法分词的效果取决于分词词典的大小与质量,分词的原则是尽量避免单个字的出现和尽可能少的分词数量。

基于HMM分词算法

隐马尔可夫模型的3个关键矩阵:初始概率矩阵、状态转移概率矩阵、发射概率矩阵。

  • 根据训练样本获取每个词的状态(S:单字词, B:词的开头,M:词的中间,E:词的末尾)
  • 如果是单字词,则记录第一个字的状态,用于计算初始状态概率。如果不是单字词,则统计状态转移次数,并计算对应的概率。
  • 通过上面步骤得到3个概率矩阵,并且由训练样本可得可观测序列,通过维特比算法(Viterbi)来求得在马尔可夫模型中最优的隐含状态。维特比算法其实就是一个求最短路径的动态规划问题。

基于n-gram语法模型分词算法

  • 根据语料获取每个词出现频次与每个词后接词语出现频次
  • 寻找当前字的最佳前驱节点,并记录累计概率

    基本概念如下图:
    n-gram.png

总结

算法比较
1、评测语料:微软评测语料,共3985个句子
2、性能比较

Algorithm Precision Recall F1-score Cost-Time
HMM 0.65 0.75 0.70 4.87
MaxForward 0.76 0.87 0.81 244.14
MaxBackward 0.76 0.87 0.81 280.61
MaxBiWard 0.76 0.87 0.81 443.23
MaxProbNgram 0.76 0.87 0.81 8.99
MaxBiwardNgram 0.74 0.86 0.80 3.96
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转自 进击的Coder 公众号 原理 中文分词,即 Chinese Word Segmentation,即将一个汉...
    Epiphron阅读 11,656评论 2 56
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,934评论 3 24
  • 简介 NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识...
    郭少悲阅读 6,620评论 0 4
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,320评论 1 25
  • 心智模型 心智模型在人的发展中起着底层逻辑的作用,心智模型驱动着人行为的改变,健康的心智模型会促进人持续的发展。 ...
    蓝波儿阅读 893评论 0 1