记号
一个查询,里面有若干文档,对应的特征向量为
,对应的标签为
(标签有几种表示法,简单的就是"相关"(1)和"不相关"(0)两种,复杂的包括0,1,2,3,4,从"不相关"(0)到"非常相关"(4)共五种标签。)
表示
应该排在
前面(例如,在这个查询里
的标签是"非常相关",而
的标签是不相关),
原理
对一个给定的查询,选定里面的一对URL,和
,对应的特征为
和
。将他们的特征传给模型,模型分别计算出这两个URL的分数
和
。将这两个分数传给一个sigmoid函数,用来学习
应该排在
前的概率
这里的用来控制sigmoid函数的形状。
我们使用交叉熵函数作为代价函数,设是已知
应该排在
前面的概率,则代价函数表示为
给定一个查询,设
故,将
和
带入
得出
使用一点微积分知识容易求出关于
的偏微分
现在可以使用该梯度来更新模型的权重,
其中是正的学习率,一般使用
到
。
因为所以代价函数是减少的。