LambdaMART之见底之解

引入

lambdamart是什么呢? 无非是 lamda + mart. lambda 和 mart又是什么呢?

lambda

 大师强制定义的梯度。含义是:指明下一次移动的方向和强度。

 为什么有上面含义呢?

 先上一盘公式,瞅一眼:

梯度公式

公式浅层理解

这个公式很显然是一个负数,肯定是个负梯度,我们知道负梯度肯定是使损失函数下降的方向,用这个公式,肯定回事损失函数降低,不会升高,所以可以放心的用,但是我们想想公式定义的这么繁琐,难道没有点其他的事情要搞吗?要不然对的起如此繁琐的公式???

公式深层理解

当然了, 真正的物理的意义远远远远远远超出了上面分析的简单的方向。

我们看公式的第一个部分:

ranknet梯度

这一部分是Ranknet损失函数梯度,那么让我先看下RankNet损失函数含义,然后再回看这个梯度。


Ranknet

Ranknet是一个人

这个人认为 query-url的相关性是一个分数来度量。 score(q-u1) > score(q-u2) ,则q下,u1的相关性大于u2.

那么他认为只要算出了这个分数score(q-ux) , 就能知道了所有u的相关性,且大小都用分数来度量。

那么如何求这个分数?

作为资深数据挖掘专家,他的想法很牛逼,他不去直接去学习每个文档的相关性, 而是去比较两个文档的相关性, 他认为:

P(u1 > u2) = 1; P(u1 == u2) = 0.5; P (U1<u2) =0

所以 1, 0 , -1 就是学习的label。 即不同文档比较下的相对相关性。

那么我们如何学习这种比较下的相对相关性呢?也就是 【要学的公式 】 是啥?

Ranknet不同文档相对相关性度量公式

有了这个公式,我们就能量化,两个不同文档的,相比较下相关性强弱。

如果score(u1) > score(u2) , 那么我们就希望 P12 = 1, 在上面sigmod函数中,其实就是越靠左越好(接近1)。

如果score(u1) < score(u2) , 那么我们就希望 P12 = -1, 在上面sigmod函数中,其实就是越靠右越好(接近0)。

如果score(u1) = score(u2) , 那么我们就希望 P12 = -1, 在上面sigmod函数中,其实就是越靠中间越好(接近0.5)。

为此:

我们无非就是学 Pij , 使其与真时的label一致。 那么这里我们用【交叉熵损失函数】


交叉熵损失函数

然后用【梯度下降】求解:


梯度下降

这样有没有问题??

RankNet的优化方向为降低pair-wise error,并不关心最相关的doc是否排在最前面 

RankNet优化过程可能如图所示

蓝色为相关的doc为label=1.右侧为不相关的doc. label =0 

左边的doc list共有13个pair-wise error,右边共有11个pair-wise error RankNet可能会进行从左到右的“优化”

优化右边的doc list时,RankNet的梯度大小类似于黑色箭头, 而我们更需要红色箭头那样的梯度大小。

为什么ranknet不能做到红色剪头效果呢?

ranknet是想做的是让不同的结果打出不同的分数,不同的分数可以比较相关性强弱就行,我比你强,那么我的分数就要比你大 ,哪怕只是大一点点点点都行。那么在这种情况下,我们在理解下ranknet的损失函数,他并不关心线上的顺序,他只是给每个结果算出仅仅能够表示强弱的分数即可,只要能让损失降调最小。

而红色部分不一样,他不仅考虑到了上面强弱,还考虑到了位置信息,每一次迭代都朝着对整体排序效果有利的方向前进。



OK,以上是Ranknet部分,回到上面部分,我们再看lambda第一部分:

就是ranknet的损失函数,优点是通过降低损失减少逆序对,缺点是调序的盲目性,未考虑到topk的相关性逐渐减弱。

再看公式的第二部分:

第二部分其实就是质量评价指标, 

DCG的变化

DCG是:

其中li = label_i

回到上图,比较左右两个排序结果的dcg指标:

左右图的dcg变化

可以看到根据dcg指标,从左到右进行的是“负优化”。说明了,dcg是变小了, 变化是个负数,也就是按照ranknet优化后,前k个相关性顺序并不对。所以这里我们会选择变化最大的dcg做为梯度。然后进行后面的树拟合。

dcg变化最大的,当往好处变时,dcg会变大,越好会越大。

然后用dcg * ranknet损失函数,就能代表了,红色剪头方向和强度。 后面我们就用回归树拟合dcg * ranknet。得到当前的数。

lambdamart理解

1. 每次迭代都会算出的lambda * ndcg,表示 调整每个结果所带来的对梯度下降的影响以及对整体的影响

2. 基于算出的梯度值y值,我们接下来会用树进行拟合,实际上这个过程就将梯度值差不多的样本放到了同一个叶子节点上。

3. 这就说明了同一个叶子节点上这些样本变化时,对整个loss下降贡献差不多,因为他们就是同一类的,至少相关性是差不多的。

4. 而loss下降贡献越大,也就是某个叶子节点上的整体值越大,表示这个样本越相关,因为对调序带来的影响越大。

6. 特征好坏,主表现在能否将不同级别的相关性结果,分别放到自己级别对应的相关性节点上,如

果能放到,那么这个节点的输出值(如平均值),则更能代表这个级别的相关性值。那么最后梯度就会降的更低(因为叶子节点上的每个值大小都差不多,所以损失误差就最小)。而不好的特征,则分不开。

7. 每个样本计算lambda 或者 ndcg的变化,是将上一轮树中叶子节点中属于该query的所有结果,组成list计算的, 计算后的值就是新的梯度,作为下一轮训练树该样本的y值。而每轮训练回归树的时候,是跨query的,将所有的样本按照特征分裂到不同的树。当迭代数轮后,每个叶子节点都有属于不同query的样本,分到同一个叶子节点,同一个query下的url,其相关性是相同的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容