stanford NLP courses:
https://www.youtube.com/watch?v=eNLUo3AIvcQ&feature=youtu.be
San Francisco 是个地名,这个地名出现的频率很高。所以 Francisco 这个词出现的频率很高,那他对应的unigram概率应该也很高,也就是说比“glasses”这个的概率更高,但是实际上"Francisco"这个词单独出现的概率很低,他都是跟在"San"的后面出现的,unigram的计算方法不会考虑到这一点,导致Francisco的unigram特别高,那这个一元是不准确的。我们不应该相信他,所以用back-off的方法去代替原来的unigram值,具体是指
p(w)的分子是w作为二元式的后项的时候,第一个词有多少种情况,计数作为分子;分母是与w这个词组合的任意二元组的个数作为分母。
· 对于每个词,计算它紧跟着另一个词所组成的不同的bigram类型的数目
· 每个第一次出现的bigram即是一种新的‘延续’,其概率与能跟w组成bigram的词的集合大小成比例
这个是作为
插值的 Kneser-Ney Smoothing 的公式的第二项
从头捋一下
插值的 Kneser-Ney Smoothing 的公式来自一个简单的二元语法概率公式:
在简单的二元语法的计算公式上,第一项统一减去一个固定值d,并且剪掉的部分作为第二项的系数;增加第二项回退到一元。
d是一个固定的数值,即折扣。但是关键在于应用unigram的项是否恰当。
第二项的是第一项剪掉的概率值,然后
乘上
参考资料:
https://www.cnblogs.com/a-present/p/9457093.html
https://blog.csdn.net/baimafujinji/article/details/51297802
https://www.youtube.com/watch?v=eNLUo3AIvcQ&feature=youtu.be
END