登录注册写文章

Kneser Ney Smoothing 平滑算法2019-04-28

Kneser Ney Smoothing 平滑算法2019-04-28

stanford NLP courses：

https://www.youtube.com/watch?v=eNLUo3AIvcQ&feature=youtu.be

San Francisco 是个地名，这个地名出现的频率很高。所以 Francisco 这个词出现的频率很高，那他对应的unigram概率应该也很高，也就是说比“glasses”这个的概率更高，但是实际上"Francisco"这个词单独出现的概率很低，他都是跟在"San"的后面出现的，unigram的计算方法不会考虑到这一点，导致Francisco的unigram特别高，那这个一元是不准确的。我们不应该相信他，所以用back-off的方法去代替原来的unigram值，具体是指

p(w)的分子是w作为二元式的后项的时候，第一个词有多少种情况，计数作为分子；分母是与w这个词组合的任意二元组的个数作为分母。

· 对于每个词，计算它紧跟着另一个词所组成的不同的bigram类型的数目

· 每个第一次出现的bigram即是一种新的‘延续’，其概率与能跟w组成bigram的词的集合大小成比例

这个 $P_{Absdiscount}$ 是作为

插值的 Kneser-Ney Smoothing 的公式的第二项

从头捋一下

插值的 Kneser-Ney Smoothing 的公式来自一个简单的二元语法概率公式：

在简单的二元语法的计算公式上，第一项统一减去一个固定值d，并且剪掉的部分作为第二项的系数；增加第二项回退到一元。

d是一个固定的数值，即折扣。但是关键在于应用unigram的项是否恰当。

第二项的 $\lambda$ 是第一项剪掉的概率值，然后 $\lambda$ 乘上 $P_{continuation} (w)$

参考资料：

https://www.cnblogs.com/a-present/p/9457093.html

https://blog.csdn.net/baimafujinji/article/details/51297802

https://www.youtube.com/watch?v=eNLUo3AIvcQ&feature=youtu.be

END

最后编辑于：2019.04.28 16:35:33

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1赞2赞

赞赏

手机看全文