自然语言处理NLP(三)

数学基础(重要)

统计学+信息论

概率论+统计学+信息论+语言学知识

----概率论

1. 样本空间

2. 条件概率与独立性

A\B相互独立

3. 链式规则

链式规则--推导隐马

4. 贝叶斯定理(重要)

贝叶斯定理的优势在于计算概率时可交换相关事件的次序,也就是说通过P(B|A)的值间接计算P(A|B)的值。尤其当其中一个很难计算时,可以利用另一个来求未知概率的值

贝叶斯定理

P(A)可以看作归一化常数

完整贝叶斯定理
计算匹配识别概率

5. 期望与方差

期望
方差

6. 概率函数P的估计

例如英文句子the cow chewed its cud 在日常生活中出现的概率是多大?最常用的技巧就是假设某些语言现象服从某一类已知的概率分布,例如二项分布或者正态分布。我们称这种方法为参数化方法,它有两个优点。这就意味着我们有一个数据生成过程的概率模型,需要在一系列可能的概率分布中确定出一个来;另一方面,因为只有几个参数需要决定,它需要的训练样本数据的规模也不会很大,我们甚至可以计算出为达到理想的估计结果所需要的训练数据量。

但是预定义的概率模型并不能描述所有的NLP问题,例如新闻报纸中所涉及某类主题的文章词的分布。这种分布是不规则的,所以不能用一些简单的分布(如二项分布)来刻画它,否则会遇到很多问题,得出的概率估计也是错误的。

这种情况一般都使用非参数化的方法或者称为自由分布的方法,即用简单的统计方法去估计概率分布,估计的结果相当于产生了一个离散的概率分布。当然,通过插值法也可以得到一个连续的分布函数P。非参数化的方法存在两个缺陷。第一,训练数据有限,估计结果需要做平滑操作。为了进行平滑往往又利用了假设隐含分布,相当于又回到了参数化方法的老路上了;第二采用非参数化的方法等同于我们对样本数据如何生成一无所知,因此先验知识的匮乏意味着我们不得不需要更多的训练数据去估计参数。

----二项分布:

当重复一个只有两种输出(假设为0和1的实验),并且实验之间相互独立时,我们就说结果符合二项分布。二项分布在NLP中使用得非常广泛,例如估计英文文本中含有单词the的句子所占百分比,或者确定一个动词在语言中是否常被用于及物动词或者非及物动词。(0,1两种情况)

二项分布

比如垃圾邮件和非垃圾邮件。

期望np,方差npq

----连续分布函数:正态分布

到 目前为止,前面讨论的都是离散概率分布和离散随机变量

正态分布

在统计自然语言处理和模式识别领域中更多地称之为高斯分布

在许多统计应用中,我们用连续的正态分布函数来近似离散的二项分布。但是在自然语言处理中存在一些稀有事件。假设shade tree mechanics 在文章中的出现次数,显然即使是在大规模文本中,这个短语出现的频率也很小,这时用正态分布近似二项分布会出现很大的误差。

-----高斯分布

高斯分布经常用于解决聚类问题,这里给出的仅仅是一维或单变量的正态分布

还有一些其他分布,比如t分布用在假设检验上

-------贝叶斯统计

贝叶斯更新

假设我们重复10次抛硬币,其中有8次结果都是正面向上,从频率论来看会认为是一种极大似然估计。但这里先入为主了一个知识,就是硬币是均匀的,每次向上和向下的概率是相等的。贝叶斯更新会在不断获取证据的基础上重复更新这些先验知识,更新方法就是用的贝叶斯定理。

每当出现新的证据时,通过最大化后验概率(MAP)的方法来重新更新原来的先验假设,这个过程又称为贝叶斯更新。

贝叶斯决策定理

可以用来评估哪个模型或者模型族能更好地适应数据,解释数据。假设我们实际上不能直接看到抛硬币的结果,比如可能是其他人报告的结果。目前为止,可能是这样一种情况:假设报告的实验结果真实地反映一个不均匀硬币的实验结果。我们假设一类模型族,称为理论μ,模型中有一个参数专门用来表示硬币的质量分布。现在存在另一种假设,我们每次抛出的是两个而不是一个质地均匀的硬币称为理论v

注意,在这两个理论中,一个需要自由参数,表示类似硬币的均匀度概念,另一个则不需要任何参数,我们不妨假设这两个理论是等可能的。

现在我们就可以在已知观测样本数据的条件下,利用贝叶斯定理判断两个理论中哪一个更有可能:

贝叶斯定理选择模型

当存在更多而不是两个理论假设时,我们两两比较并选择一个最有可能的假设,在词义消除问题中我们往往使用的也是贝叶斯决策

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容