数学之美--谈谈分词

保留初心,砥砺前行

看完了《数学之美》第三章才想起来做一些记录会有更好的效果。

所以从第四章开始也不晚,况且前两章只是相当于介绍了数学的某些历史。

从这篇开始以数学之美为开头的文章更多的是为了自己看,记录一些书中的重点。

如果恰好也有喜欢数学的你看到了这些文章,可以看做是对数学之美这本书的一个简要性概述。

最后,希望高手指正。

数学的魅力就在于将复杂的问题简单化。

这里是我上午写的一篇“文章”,它太短,所以不能称之为一篇文章;然而它承载的内容又太重,早就超过了一篇文章的范畴。

虽然我一直相信的是,哲学是万物的科学,是一切科学的基础和指导,并且这样的信条一直再指导我的生活和学习。

但是在这里我认为,数学是一切问题最终的解决方法,与之前我所相信的并不冲突。

在我看来,数学可以给一切以一个简单的解决方案,而计算机、程序则是这种解决方案的实践。

可以解决一切的理论加上可以实现一切的实践,对,就是上帝。

他甚至(这是为了节目效果的夸张说法==)可以制造生命(人工智能)。

下面是分割线
·=================================================·

扯远了回归正题,来,数学之美第四章:

第三章中说可以使用统计语言模型进行自然语言处理,而自然语言模型建立在词的基础上。在英语等语言中,每个词中间都有间隔,而在中文、日文等语言中,一句话由很多词语组成,但并不存在明显的分隔符。因此对这种语言进行基于统计语言模型的自然语言处理,就需要进行分词。

例:
中国航天官员应邀到美国与太空总署官员开会。
中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。

分词最基本的思想就是“查字典”。
简单来说就是把句子从左到右扫描一遍,遇到字典里有的词就标识出来,如果遇到复合词,就按最长匹配原则(上海大学,不按上海和大学分,按最长匹配原则)。

然而当词语存在二义性时,例如:
发展中国家
按照上述规则,从左到右查字典,得到的结论是
发展/中国/家
然而实际上应该是
发展/中/国家

对于这种情况,上一章讲到的统计语言模型可以解决这个问题。

假如一个句子有三种分词方法:
A1, A2, A3, ..., Ak
B1, B2, B3, ..., Bm
C1, C2, C3, ..., Cn
分词得到的结果不同,分成的词的个数也不同。
此时问题又成了上一章中的问题,如何才能判断哪一种才是最好的。
最好的应该是保证分完词后这个句子出现的概率最大,如下所示:
P(A1, A2, A3, ..., Ak) > P(B1, B2, B3, ..., Bm)
并且
P(A1, A2, A3, ..., Ak) > P(C1, C2, C3, ..., Cn)
概率最大的就是最好的分词方法。

最后,本章提到了两点:

  • 分词技术已经成熟,提升空间微乎其微
  • 如今手写输入英文越来越流行,手写输入的英文单词之间的间隔并不如机器打印的这么明显,因此也需要分词技术。

在延伸阅读中,提到了关于分词的粒度的问题。
例如词语‘清华大学’,有些人认为分到清华大学这个层次恰到好处,因为他可以说是一个专有名词;而另一些人认为要分成清华和大学,他们说清华是用来修饰大学的,要是不拆开,无法体现他们的修饰关系。
现实的情况是,我们需要针对不同的应用,进行不同层次的分词。
在机器翻译中,粒度大的分词效果更好,而在网页搜索中,粒度小的效果更好。

支持不同粒度的分词器模型:

字串 --》基本词表(例如清华,大学) + 统计语言模型L1 --》基本词串
基本词串--》复合词表(例如清华大学) + 统计语言模型L2 --》复合词串

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,181评论 1 25
  • 本文转自 刘未鹏的博客! 概率论只不过是把常识用数学公式表达了出来。 记得读本科的时候,最喜欢到城里的计算机书店里...
    Bioquan阅读 4,545评论 1 29
  • 1.1 统计语言模型 香农(Claude Shannon)就提出了用数学的办法处理自然语言。首先成功利用数学方法解...
    wzz阅读 1,952评论 0 10
  • 2801# 数学之美-Statistical Language Models Google 的使命是 "整合全球信...
    ucudrrad阅读 617评论 0 3
  • 很早之前看了几篇博文,只留下模糊印象 。这次是在学习人工智能的基础知识后再看,其中研究自然语言的方法从基于规则转变...
    轻舟阅读 5,892评论 0 9