数据平滑技术

平滑技术:
(1)把在训练语料中出现过的n元组的概率减少。
(2)把减少的概率质量分配给训练语料中没有出现的n元组。

根据平滑技术是否是组合使用的分为两类:简单平滑和组合平滑。

一. 简单平滑:

  • 加法平滑
  • 留存平滑
  • Good Turing平滑

二. 组合平滑:

  • 插值平滑
  • 回退平滑

(1)加法平滑:
说白了就是让所有n元组的出现次数+k。在这个基础上来进行训练计算。

这个简单的平滑会引出两个问题:
1:是否存在“富人不公平”。
2:对于没有出现过的n元组给予均值的概率值是不是不合理。

(2)留存平滑:
通过把训练语料分成两个部分:训练语料 和 留存语料。通过留存语料内的数据分布来改善训练语料估计出来的值。

定义:
c_{tr}(w_1w_2...w_n)n元组在训练语料中出现的频率。
c_{ho}(w_1w_2...w_n)n元组在留存语料中出现的频率。
有可能有n元组不在训练语料中出现但是在留存语料中出现。
r 某n元组在训练语料中出现的频率
N_r 训练语料中出现r次的不同n元组的个数(type)
T_r 训练语料中出现r次的n元组在留存语料中的频率之和
T 为留存语料中n元组的数目
T_r = \sum_{ w_1...w_n|c_{tr}(w_1...w_n)=r} c_{ho}(w_1...w_n)
那么
p(w_1w_2...w_n) = \frac{T_r}{T} * \frac{1}{N_r},r = c_{tr}(w_1...w_n)
\frac{T_r}{T}是 在训练语料中出现了r次的n元组在留存语料中出现的概率。
\frac{1}{N_r}让前面这个概率均分给出现r次的n元组们。

这个就好像是训练好了之后做了一次预测一样。把预测的当做了答案。

(3)删除平滑:
留存平滑要求数据量很多,但是数据量往往是不够的。所以可以使用删除平滑。

其实就是两次留存,交叉验证。
将训练数据分成part0和part1
两次分别将不同的part设置为训练语料和留存语料。
之后
p_{del}(w_1...w_n) = \frac{T_r^{01}+T_r^{10}}{N(N_r^0+N_r^1)} ,c(w1...w_n) = r

(4)Good Turing 平滑
定义:
N_r 代表出现r次n元组的个数。
A_r 代表出现r次n元组的总出现次数。
A_r = r*N_r
普通Turing平滑有一个原则:
将平滑前出现r+1次的n元组的频率质量都给平滑后出现r次的n元组。
从频次的角度出发就是r+1次的n元组的总出现次数都给r次的n元组。

那么这样
A_r^{new} = A_{r+1}
并且每个r次的n元组可以获得以下的频率质量
r^{new} = \frac{A_r^{new}}{N_r} = \frac{A_{r+1}}{N_r} = \frac{(r+1)N_{r+1}}{N_r}

但是这样会出现问题,也就是在之前出现m次的n元组如果没有的话。那么平滑后m-1次的n元组也会为0。

而图灵的学生Good就解决了这个问题:
他提出的是对N_r使用一个估计。(好像多项式插值一样,对N_r函数进行模拟,近似,把没有的值给填充起来。这样r^{new}就不会为0了,而且结果也不会很偏离现实。)

通过研究N_r函数可以发现比较好的函数是 N_r = ar^b
并且研究r^new 和 r的关系(r>1)
也就是对于真实和我们平滑后的并且是被拿出概率质量的那部分。明显r^{new}<r,而1-\frac{r^{new}}{r}也就是所谓的折扣率。
可以发现的是r越大,P_{MLE}越可靠,折扣率越小。

综合上述两种平滑,可以给出以下策略:
---低频段(r比较小的时候)一般不会出现中断(N_r = 0)所以使用Turing平滑。高频段使用Good-Turing。

具体地:
使用 Turing估计值方差:
Var(r^{new}_T) \approx (r+1)^2\frac{N_{r+1}}{N_r^2}(1+\frac{N_{r+1}}{N_r})
当这个值>1.65*1.65的时候就差异比较大了。

最后要概率归一(保持那些平滑前没有出现的n元组的概率质量):
P(出现r次的n元组,r>=1) = (1-\frac{N_1}{N})\frac{p_r^{unnorm}}{\sum_{r>=1}N_r*p_r^{unnorm}}

(二)组合平滑:
上面的后面的简单平滑一般缓和了“富人不公平”的问题,但是针对没有出现过的n元组的概率还是给与均一的概率。那么如何解决这个问题?
主要的思想是用小规模1...n-1-gram的概率来启发分配。

(1)插值平滑:把不同阶-gram线性组合。

  1. 简单插值平滑
    p(w_i|w_{i-1})=\lambda p_{MLE}(w_i|w_{i-1}) + (1-lambda)p_{MLE}(w_i)
    \lambda可以人工设置或者学习而来,是固定的。

2.Jelinek-Mercer平滑:
固定\lambda明显是不合理的。(高阶模型如果可靠的时候\lambda应该变大)。
\lambda \epsilon A_r(n元组出现的频次)
从而有以下:
p(w_i|w_{i-n+1}^{i-1}) = \lambda_{i-n+1}^{i-1}p_{MLE}(w_i|w_{i-n+1}^{i-1}) + (1-\lambda_{i-n+1}^{i-1})p(w_i|w_{i-n+2}^{i-1})
注意
w_{i-n+1}^{i-1} = w_{i-n+1}w_{i-n+2}...w_{i-1} 一共n-1个元素。加上w_i就是n个。
所以是递归式的。
终止:

  1. 平滑后的一元模型。
  2. 0元模型,均匀分布的。

问题:如何求\lambda? 通过学习,但是参数太多了怎么办?聚集一下。把出现频率差不多的弄成一个类,这个类的\lambda都是一个值。

???
根据修正的频次进行区间分类:
\frac{c(w_{i-n+1}^{i-1})}{|w_i:c(w_{i-n+1}^i)>0|}
???

(2)回退模型:
高阶可以的时候用高阶,不然就用低阶。

  1. Katz平滑:
    引入折扣率,来对存在的进行减少。
    多出来的概率质量,用低阶的概率分布来分配。
    折扣率的设置通过图灵估计列出两个方程来求解。

  2. 绝对减值法:
    引入固定扣除值,低阶的平滑后(和上面的Katz不一样,这个是递归型的)的概率来启发分配。

  3. Kneser-Ney平滑(KN平滑)是现在最好的平滑。
    考虑一个问题:
    有一个专有名词:San Fracisco 。并且这个词汇在文中出现的次数很多很多。
    那么对于一个问题:
    I can't see without my reading _____
    理论上是glasses但是因为Fracisco出现的次数很多。
    从而用绝对减值的时候

P_{new}(Fracisco|reading) = \frac{\max(c(w_{i-n+1}^i)-\delta,0)}{\sum_{w_i}c(w_{i-n+1}^i)}+(1-\lambda_{w_{i-n+1}^{i-1}})P_{new}(Fracisco)
前部分概率为0.但是后部分概率是大的。
P_{new}(glasses|reading)很可能文中出现没有几次。并且P(glasses)也很少,这样就有问题了。

???
会造成问题:
\sum_{w_{i-1}}p_{abs}(w_{i-1}w_i) != p(w_i)
???
所以要按照w_i的前驱词的种类数量来分配概率质量:
引入 接续概率:
p_{cnt}(w_i) = \frac{ | (w_{i-1}:c(w_{i-1}w_i)>0) | }{\sum_{w_j}| (w_{j-1}:c(w_{j-1}w_j)) |}
从而获得以下:
p_{KN}(w_i|w_{i-1}) = \frac{ \max( c(w_{i-1}w_i)-\delta,0 ) }{\sum_{w'}c(w_{i-1}w')} + (1-\lambda_{w_{i-1}})p_{cnt}(w_i)

最后还有一个修正的。不是很懂。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容