Mmseg算法

1. Mmseg算法简介

Mmseg是一种基于字符串匹配（亦称基于词典）的中文分词算法。传统的基于词典的分词方案虽然可以进行分词操作，但是无法解决分完词之后的存在的歧义问题，比如，“南京市长江大桥”是应该分为“南京/市长/江大桥”还是“南京市/长江/大桥”？基于此，后面提出了正向最大匹配策略，但是这种策略并没有完全解决分词存在歧义的情况，比如刚刚的例子:“南京市长江大桥”，若是基于最大匹配策略，则会被分为“南京市长/江/大桥”，可以明显的看出这种分词结果并不符合我们的要求，因而最后提出一种基于最大匹配策略的新的分词算法：mmseg。

2.Mmseg算法主要思想

Mmseg分词算法的主要思想是每次从一个需要分词的句子里，按照从左到右的顺序，识别多种不同的3个词组合。然后根据mmseg的4条消岐规则选取最优分词组合。然后选择备选词组合中的第1个词，作为1次迭代的分词结果；剩余的词(即这个句子中除了第一个已经分出的词的剩余部分)继续进行下一轮的分词运算。采用这种办法的好处是，为传统的前向最大匹配算法加入了上下文信息，解决了其每次选词只考虑词本身，而忽视上下文相关词的问题。

3.四条消歧规则

① 规则1，最大匹配。

  假设词语能够找到一个简单的词匹配，则觉得该词即为该词语的分词类似。词语“南京市”，通过词典分词。例如以下分词结果：

1.南/京/市
2.南京/市
3.南京市
1.C1_C2_C3
2.C1C2_C3
3.C1C2C3
可见“南京市”有全然相应的词，则觉得这个词语即是一个词。规则总结例如以下：
选取C1C2C3模式

② 规则2，最大平均词汇长度。

假设词语分词不满足规则1，则使用规则2：类似词语“南京市长江大桥”，分词结果可能例如以下

南京市_长江大桥 —— 平均词长度为7/2=3.5
南京市长江大桥 —— 平均词长度为7/3=2.3
归纳该规则为则选取第一种分词方式，可见这个规则是兼容第一个规则的。
C1C2_C3C4C5C6
C1C2_C3C4_C5C6

③ 规则3，最小词长方差。

   假设规则2不成立，则进行规则3。这个规则和我们平时用语有关，一般我们在组织语句时，为了朗朗上口，往往使用的词汇组成长度比较一致。
比方，“幸福_快乐”，“人之初_性本善”，“君子一言，驷马难追”。 类似，词语“研究生命科学”

研究生命科学 ——词长方差0.82
研究生命科学 ——词长方差0
上述平均词长都是2，可是词长方差不一致。依据规则3。选择另外一种分词方式，这样的规则能够归纳为
C1C2_C3C4_C5C6
_C1C2C3_C4_C5C6

④ 规则4。最大单字自由度。

   所谓单字自由度，能够简单的理解为这个字作为单独出现的语境次数。比方“的”常常作为定语修饰字，常常出如今各种语境。可是“的”偶尔也会和其
字词组成成语。 比方“目的”等，这样的组合会影响改字的自由度。有关自由度和凝固度。回头在《新词发现》中讨论。这样的推断主要是使用在单字存在
的场景。在规则三不成立的情况下，进行规则四的推断。

化妆/和(10)/服装
化妆/和服/装(3)
总结该规则为：平均词长和词长方差是一致的，可是单字的自由度不同。选择第一种分词方式
C1C2_C3_C4C5
C1C2_C3C4_C5
Compare the freedom(C3) to freedom(C5)

4.核心代码

'''
class Chunk:
  def __init__(self, words, chrs):
      self.words = words
      self.lens_list = map(lambda x: len(x), words)
      # 规则一：Maximum matching
      self.length = sum(self.lens_list)
      #规则二：Largest average word length
      self.mean = float(self.length) / len(words)
      #规则三：Smallest variance of word lengths
      self.var = sum(map(lambda x: (x - self.mean) ** 2, self.lens_list)) / len(self.words)
      #规则四：Largest sum of degree of morphemic freedom of one-character words
      self.entropy = sum([log(float(chrs[x])) for x in words if len(x) == 1 and x in chrs])

  def __lt__(self, other):
    return (self.length, self.mean, -self.var, self.entropy) < \
           (other.length, other.mean, -other.var, other.entropy)

 def get_chunks(self, sentence):
    # 获取chunk，每个chunk中最多三个词
    ret = []
    def iter_chunk(sentence, num, tmp_seg_words):
        # 获取当前句子中最开头的那个字，以及由该字所组成的词，但是该词需要同时满足俩个条件：
        # ①出现在预加载的词典中，②出现在当前句子中
        match_words = self.get_start_words(sentence)
        #因为每个chunk中最多只有三个词，所以当num由最先初始化的3降为0时，进入if中，然后运用mmseg的4条消岐规则进行评分，
        # 最后将每种的分词的评分加入到一个list中去，以便在最后的时候进行比较，从而选取最优分词结果。
        if (not match_words or num == 0) and tmp_seg_words:
            ret.append(Chunk(tmp_seg_words, self.chrs_dic))
        else:
        #否则，遍历match_words，从中依次取词，在原句中去除该词进行递归查找，然后num-1以及将当前word加入到tmp_seg_words中。
            for word in match_words:
                iter_chunk(sentence[len(word):], num - 1, tmp_seg_words + [word])
    iter_chunk(sentence, num=3, tmp_seg_words=[])
    return ret

def cws(self, sentence):
  while sentence:
      chunks = self.get_chunks(sentence)#接收返回的chunks
      #将之前每种的分词评分运用①~④的消歧规则的进行依次比较，选取出当前最优解，
      #然后在最优解中选取第一个词作为已分好的词，剩下的词重新当成参数传入到get_chunks方法中
      word = max(chunks).words[0]
      sentence = sentence[len(word):]
      yield word
if __name__ == "__main__":
    mmseg = MMSeg()#预先加载字典
    print(list(mmseg.cws("南京市长江大桥上的汽车，")))
'''

5.Mmseg分词流程图

mmseg.png

综上：我们可以根据4条消歧的规则很容易的找出分词结果（10）为最佳分词。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,463评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,868评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,213评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,666评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,759评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,725评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,716评论 3赞 415
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,484评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,928评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,233评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,393评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,073评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,718评论 3赞 324
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,308评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,538评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,338评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,260评论 2赞 352