Mmseg算法

1. Mmseg算法简介

Mmseg是一种基于字符串匹配(亦称基于词典)的中文分词算法。传统的基于词典的分词方案虽然可以进行分词操作,但是无法解决分完词之后的存在的歧义问题,比如,“南京市长江大桥”是应该分为“南京/市长/江大桥”还是“南京市/长江/大桥”?基于此,后面提出了正向最大匹配策略,但是这种策略并没有完全解决分词存在歧义的情况,比如刚刚的例子:“南京市长江大桥”,若是基于最大匹配策略,则会被分为“南京市长/江/大桥”,可以明显的看出这种分词结果并不符合我们的要求,因而最后提出一种基于最大匹配策略的新的分词算法:mmseg。

2.Mmseg算法主要思想

Mmseg分词算法的主要思想是每次从一个需要分词的句子里,按照从左到右的顺序,识别多种不同的3个词组合。然后根据mmseg的4条消岐规则选取最优分词组合。 然后选择备选词组合中的第1个词,作为1次迭代的分词结果;剩余的词(即这个句子中除了第一个已经分出的词的剩余部分)继续进行下一轮的分词运算。采用这种办法的好处是,为传统的前向最大匹配算法加入了上下文信息,解决了其每次选词只考虑词本身,而忽视上下文相关词的问题。

3.四条消歧规则

① 规则1,最大匹配。

  假设词语能够找到一个简单的词匹配,则觉得该词即为该词语的分词类似。词语“南京市”,通过词典分词。例如以下分词结果:

1.南/京/市
2.南京/市
3.南京市
1.C1_C2_C3
2.C1C2_C3
3.C1C2C3
可见“南京市”有全然相应的词,则觉得这个词语即是一个词。规则总结例如以下:
选取C1C2C3模式

② 规则2,最大平均词汇长度。

假设词语分词不满足规则1,则使用规则2:类似词语“南京市长江大桥”,分词结果可能例如以下
  1. 南京市_长江大桥 —— 平均词长度为7/2=3.5
  2. 南京市长江大桥 —— 平均词长度为7/3=2.3
    归纳该规则为则选取第一种分词方式,可见这个规则是兼容第一个规则的。
  3. C1C2_C3C4C5C6
  4. C1C2_C3C4_C5C6

③ 规则3,最小词长方差。

   假设规则2不成立,则进行规则3。这个规则和我们平时用语有关,一般我们在组织语句时,为了朗朗上口,往往使用的词汇组成长度比较一致。
比方,“幸福_快乐”,“人之初_性本善”,“君子一言,驷马难追”。 类似,词语“研究生命科学”
  1. 研究生科学 ——词长方差0.82
  2. 研究生命科学 ——词长方差0
    上述平均词长都是2,可是词长方差不一致。依据规则3。选择另外一种分词方式,这样的规则能够归纳为
  3. C1C2_C3C4_C5C6
  4. _C1C2C3_C4_C5C6

④ 规则4。最大单字自由度。

   所谓单字自由度,能够简单的理解为这个字作为单独出现的语境次数。比方“的”常常作为定语修饰字,常常出如今各种语境。可是“的”偶尔也会和其
字词组成成语。 比方“目的”等,这样的组合会影响改字的自由度。有关自由度和凝固度。回头在《新词发现》中讨论。这样的推断主要是使用在单字存在
的场景。在规则三不成立的情况下,进行规则四的推断。
  1. 化妆/和(10)/服装
  2. 化妆/和服/装(3)
    总结该规则为:平均词长和词长方差是一致的,可是单字的自由度不同。选择第一种分词方式
  3. C1C2_C3_C4C5
  4. C1C2_C3C4_C5
    Compare the freedom(C3) to freedom(C5)

4.核心代码

'''
class Chunk:
  def __init__(self, words, chrs):
      self.words = words
      self.lens_list = map(lambda x: len(x), words)
      # 规则一:Maximum matching
      self.length = sum(self.lens_list)
      #规则二:Largest average word length
      self.mean = float(self.length) / len(words)
      #规则三:Smallest variance of word lengths
      self.var = sum(map(lambda x: (x - self.mean) ** 2, self.lens_list)) / len(self.words)
      #规则四:Largest sum of degree of morphemic freedom of one-character words
      self.entropy = sum([log(float(chrs[x])) for x in words if len(x) == 1 and x in chrs])

  def __lt__(self, other):
    return (self.length, self.mean, -self.var, self.entropy) < \
           (other.length, other.mean, -other.var, other.entropy)

 def get_chunks(self, sentence):
    # 获取chunk,每个chunk中最多三个词
    ret = []
    def iter_chunk(sentence, num, tmp_seg_words):
        # 获取当前句子中最开头的那个字,以及由该字所组成的词,但是该词需要同时满足俩个条件:
        # ①出现在预加载的词典中,②出现在当前句子中
        match_words = self.get_start_words(sentence)
        #因为每个chunk中最多只有三个词,所以当num由最先初始化的3降为0时,进入if中,然后运用mmseg的4条消岐规则进行评分,
        # 最后将每种的分词的评分加入到一个list中去,以便在最后的时候进行比较,从而选取最优分词结果。
        if (not match_words or num == 0) and tmp_seg_words:
            ret.append(Chunk(tmp_seg_words, self.chrs_dic))
        else:
        #否则,遍历match_words,从中依次取词,在原句中去除该词进行递归查找,然后num-1以及将当前word加入到tmp_seg_words中。
            for word in match_words:
                iter_chunk(sentence[len(word):], num - 1, tmp_seg_words + [word])
    iter_chunk(sentence, num=3, tmp_seg_words=[])
    return ret

def cws(self, sentence):
  while sentence:
      chunks = self.get_chunks(sentence)#接收返回的chunks
      #将之前每种的分词评分运用①~④的消歧规则的进行依次比较,选取出当前最优解,
      #然后在最优解中选取第一个词作为已分好的词,剩下的词重新当成参数传入到get_chunks方法中
      word = max(chunks).words[0]
      sentence = sentence[len(word):]
      yield word
if __name__ == "__main__":
    mmseg = MMSeg()#预先加载字典
    print(list(mmseg.cws("南京市长江大桥上的汽车,")))
'''

5.Mmseg分词流程图

mmseg.png

综上:我们可以根据4条消歧的规则很容易的找出分词结果(10)为最佳分词。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,245评论 1 25
  • What/Sphinx是什么 定义:Sphinx是一个全文检索引擎。 特性: 索引和性能优异易于集成SQL和XML...
    hoohack阅读 7,069评论 4 23
  • 本文转自 刘未鹏的博客! 概率论只不过是把常识用数学公式表达了出来。 记得读本科的时候,最喜欢到城里的计算机书店里...
    Bioquan阅读 10,314评论 1 29
  • 语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In mac...
    MobotStone阅读 11,443评论 0 7
  • “先生,你好!” “你好!” “请问你贵姓?” 请朋友们吃饭,提前打电话预约了饭店。可是,整个一顿饭,谈笑风生 ,...
    司南A阅读 1,765评论 3 3

友情链接更多精彩内容