Day 2 中文分词算法

与拉丁语系语言不同,汉藏语系的自然语言中词汇是没有自然分割开的,因此中文分词是中文自然语言处理的第一步(不过可以考虑和后面的步骤结合在一起来降低算法复杂度啊……然后还可以考虑仿生算法),所以先研究和总结一下现有的中文分词算法。

本文许多内容参考这篇文献,感谢分享。本文就是在理解这篇文献的基础上加点私货。

文献中看到(当然这个不是权威文献,可能不够可靠),斯坦福的CRF好像是现在效果最好的算法(中文分词算法最好的竟然是外国研究机构也是醉了),但是算法复杂度比较大,效率不够高,所以我们来讨论一下一些常用的模型。

字典匹配

最简单的就是字典匹配,其实跟暴力破解里面的一些想法比较类似,就是搞个词库,然后遍历对比词库里有没有这个词。当然有时候还要考虑到整个句子分解的完整性,最经典的就是“最大匹配”的思想,就是尽可能的匹配最长的词,比如我的句子里有“马克思主义”这个词,而我的词典里有“马克思”和“马克思主义”这两个词,肯定是去匹配“马克思主义”这个最长的词。其实可以理解为“马克思主义”的匹配优先级比“马克思”高,其实我觉得都不需要额外的计算量,只要把合成词的优先级调整在原词前面就好了。
[个人疑惑:在这个过程中是不是要保证匹配出的词汇数也尽量小]

统计与消除歧义

当然,我在Day 0里就提到了,所有的计算机项目如果没有“社科经验”的指导是很难提高效率的,其实这就是所谓的“启发式”算法,在分词算法中比较有名的之一就是MMSEG。在这个算法中也延伸到了第二种分词思路,统计消除歧义。
举个简单的例子,“黑键盘/算什么”在没有消除歧义的情况下有可能被分成“黑键/盘算/什么”。
MMSEG算法采取了以下四个规则来消除歧义:

  1. 选取最大匹配词汇;
  2. 最大平均单词长度;
  3. 单词长度的最小方差;
  4. 单字单词的语素自由度的最大和(一个汉字的出现频率可以作为它的语素自由度的索引。一个高频率的汉字更可能是一个单字单词,反之亦然。)
    具体规则内容和实例可以查看这篇文献翻译

而统计算法的实例可以参见这篇文章

对于一个中文字符串“a1a2a3...an”如何正确的用词语c1,c2..cm表示就是中文分词的任务,也就是说我们要去找寻P(c1c2..cm)最大的分词,按照马尔科夫链的想法就是说我们就是求P(c1)P(c1|c2)P(c1c2|c3)...P(c1c2...cm-1|cm)最大。按照阿卡姆剃刀的想法我们可以假设一个最可能的实现,于是google黑板报的假设就是每个词只跟前面的词有关,于是变为求P(c1)P(c1|c2)P(c2|c3)...P(cm-1|cm)最大。进一步的其实我们可以假设每个词都是相对独立的,也就是求P(c1)P(c2)...P(cm)最大,那么这个怎么求呢,就是用dp的方法。

解决字典中不存在的词语

隐马尔可夫模型HMM(Hidden Markov Model)(<-这个项目简直就是救星,感觉基础模型就可以照做了,不过千万不能抄袭。)基于字标注的分词,把分词问题转变为标注问题。
例如:“我s喜b欢e天b安m门e”
其中标注的含义为
s:single(标注前为单字)
b:begin(标注前为词语开始)
m:middle(标注前为词语中间)
e:end(标注前卫词语末尾)

进一步的概率模型

在对语义处理的过程中最大熵模型ME(Maximum Entropy)、最大熵马尔可夫模型MEMM(Maximum-entropy Markov model)和条件随机场CRF(Conditional Random Field)被分别提出(这也是我在开头提到的,既然都开始分析语义了,自然可以把分词和后续的语义分析过程结合在一起了)。
这篇文章介绍了信息熵的概念,信息熵越大不确定性也就越大,信息熵最大时表示各种概率的均等分布,也就是个不偏不倚的猜测,最大熵模型一般就是在已知条件下,来求是的熵最大的情况。
p¯(f)=Σp¯(ai,ci)∗f(ai,ci)=p(f)=Σp(ci|ai)∗p¯(ai)∗f(ai,ci)
在已知条件下就是求熵最大的情况
argmaxH(ci|ai)
因为这些算法我还没有深入了解,就不继续抄袭这篇文献了,有兴趣的同学可以去看看,如果我有深入了解和新的理解之后之后过几天再更新,并且会在这篇更新链接。

Deep Learning

这篇2013年的文献已经采用了Deep Learning的方法解决分词问题。具体而简洁地说就是神经网络什么的,有空再深入挖掘。

(PS:昨天的Intro我没忘,不过今天晚上跟男神去电影院刷了一下<Big Hero 6>,所以明天再战咯~)

That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.2.2015

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容