数学基础(重要)
统计学+信息论
概率论+统计学+信息论+语言学知识
----概率论
1. 样本空间
2. 条件概率与独立性
3. 链式规则
链式规则--推导隐马
4. 贝叶斯定理(重要)
贝叶斯定理的优势在于计算概率时可交换相关事件的次序,也就是说通过P(B|A)的值间接计算P(A|B)的值。尤其当其中一个很难计算时,可以利用另一个来求未知概率的值
P(A)可以看作归一化常数
5. 期望与方差
6. 概率函数P的估计
例如英文句子the cow chewed its cud 在日常生活中出现的概率是多大?最常用的技巧就是假设某些语言现象服从某一类已知的概率分布,例如二项分布或者正态分布。我们称这种方法为参数化方法,它有两个优点。这就意味着我们有一个数据生成过程的概率模型,需要在一系列可能的概率分布中确定出一个来;另一方面,因为只有几个参数需要决定,它需要的训练样本数据的规模也不会很大,我们甚至可以计算出为达到理想的估计结果所需要的训练数据量。
但是预定义的概率模型并不能描述所有的NLP问题,例如新闻报纸中所涉及某类主题的文章词的分布。这种分布是不规则的,所以不能用一些简单的分布(如二项分布)来刻画它,否则会遇到很多问题,得出的概率估计也是错误的。
这种情况一般都使用非参数化的方法或者称为自由分布的方法,即用简单的统计方法去估计概率分布,估计的结果相当于产生了一个离散的概率分布。当然,通过插值法也可以得到一个连续的分布函数P。非参数化的方法存在两个缺陷。第一,训练数据有限,估计结果需要做平滑操作。为了进行平滑往往又利用了假设隐含分布,相当于又回到了参数化方法的老路上了;第二采用非参数化的方法等同于我们对样本数据如何生成一无所知,因此先验知识的匮乏意味着我们不得不需要更多的训练数据去估计参数。
----二项分布:
当重复一个只有两种输出(假设为0和1的实验),并且实验之间相互独立时,我们就说结果符合二项分布。二项分布在NLP中使用得非常广泛,例如估计英文文本中含有单词the的句子所占百分比,或者确定一个动词在语言中是否常被用于及物动词或者非及物动词。(0,1两种情况)
比如垃圾邮件和非垃圾邮件。
期望np,方差npq
----连续分布函数:正态分布
到 目前为止,前面讨论的都是离散概率分布和离散随机变量
在统计自然语言处理和模式识别领域中更多地称之为高斯分布
在许多统计应用中,我们用连续的正态分布函数来近似离散的二项分布。但是在自然语言处理中存在一些稀有事件。假设shade tree mechanics 在文章中的出现次数,显然即使是在大规模文本中,这个短语出现的频率也很小,这时用正态分布近似二项分布会出现很大的误差。
-----高斯分布
高斯分布经常用于解决聚类问题,这里给出的仅仅是一维或单变量的正态分布
还有一些其他分布,比如t分布用在假设检验上
-------贝叶斯统计
贝叶斯更新
假设我们重复10次抛硬币,其中有8次结果都是正面向上,从频率论来看会认为是一种极大似然估计。但这里先入为主了一个知识,就是硬币是均匀的,每次向上和向下的概率是相等的。贝叶斯更新会在不断获取证据的基础上重复更新这些先验知识,更新方法就是用的贝叶斯定理。
每当出现新的证据时,通过最大化后验概率(MAP)的方法来重新更新原来的先验假设,这个过程又称为贝叶斯更新。
贝叶斯决策定理
可以用来评估哪个模型或者模型族能更好地适应数据,解释数据。假设我们实际上不能直接看到抛硬币的结果,比如可能是其他人报告的结果。目前为止,可能是这样一种情况:假设报告的实验结果真实地反映一个不均匀硬币的实验结果。我们假设一类模型族,称为理论μ,模型中有一个参数专门用来表示硬币的质量分布。现在存在另一种假设,我们每次抛出的是两个而不是一个质地均匀的硬币称为理论v
注意,在这两个理论中,一个需要自由参数,表示类似硬币的均匀度概念,另一个则不需要任何参数,我们不妨假设这两个理论是等可能的。
现在我们就可以在已知观测样本数据的条件下,利用贝叶斯定理判断两个理论中哪一个更有可能:
当存在更多而不是两个理论假设时,我们两两比较并选择一个最有可能的假设,在词义消除问题中我们往往使用的也是贝叶斯决策