逻辑回归和搜索广告
搜索广告能预测用户可能会点击哪些广告,从而决定在搜索结果页插入哪些广告,而且搜索者的目的明确,更容易贡献点击量,因此搜索广告的收入远远超过传统的在线展示广告。
1 搜索广告的发展
搜索广告有三个发展阶段:一是以早期Overture和百度广告系统为代表,按广告主出价高低来排名的竞价排名广告,谁给钱谁说了算,雅虎还假设给钱多的公司更靠谱,不会伤害用户体验,但实际上给钱多的一般是奸商,很快用户就不点广告了,雅虎的单位搜索量收入(以千次搜索量带来的收入衡量,称为RPM)不到谷歌的一半,而谷歌是预测哪个广告可能被点击,结合出价和点击率来决定广告投放,搜索广告的第二阶段就是预测用户点候选广告的概率,或称点击率预估。第三阶段则是对全局的进一步优化。
预估点击率的最好办法是根据以前的经验值预测,比如对特定查询,广告A展示了1000次,被点击8次,广告B展示了1200次,被点击30次,AB的点击率分别为1.8%和2.5%,如果二者出价相当,似乎应该优先展示广告B。但实际问题中没有这么简单:第一、不适用于新广告(没有历史点击数据);第二、即使是旧广告,一个查询对应的特定广告多半只有两三次点击,统计的数据严重不足,很难说被点击3次的广告比被点击2次的好(不能在楼下看到三女二男,就说整栋楼男女比2:3);第三、广告点击量和广告位置相关,放在第一条的广告点击率肯定比第二条高,因此预估点击率时需要消除这个噪音。此外影响点击率的因素很多,在预估点击率时都需要考虑。
这么多因素要用一个统一的数学模型来描述已经非常复杂,我们还希望这个模型能随着数据量的增加越来越准确,早期有很多对经验值进行修正和近似的做法,到整合各个特征时效果都不是很好。后来工业界普遍采用逻辑回归模型logistic regression或logistic model
2 逻辑回归模型
逻辑回归模型是将一个事件出现的概率适应到一条逻辑曲线(logistic curve,值域在(0,1)),逻辑曲线呈S状,特征是开始变化快,逐渐减慢,最后饱和,一个简单的逻辑回归函数形式如下:
对应曲线为:
逻辑自回归的好处是变量范围在-∞到+∞,而值域限制在0~1(变量在[-6,6]之外的函数值基本没有变化,实际应用中一般不予考虑),而概率函数的值域也在0~1,这样逻辑回归函数可以跟概率相联系,而自变量值在实数域的好处是,无论信号组合成多大或多小的值,最后依然能得到一个概率分布。
假如有k个影响点击率的变量x1,x2,...,xk,进行线性组合:
其中每个xi为变量,代表影响概率预测的各种信息,比如广告位置、广告和搜索词相关性、广告展现的时间(如晚上广告的点击率略高于下午),对应的βi称为其自回归参数,表示相应变量的重要性,β0是一个特殊参数,与所有变量无关,用于保证在没有任何信息时有一个稳定的概率分布。
比如预测有关鲜花搜索的广告点击率,假设影响因素分别为:每千次展示的点击次数(或者说单位点击量所需要的展现量)、广告和搜索的相关性、目标人群的性别。假设X1对应单位点击所需要的展现量,X2对应广告和搜索的相关性,变量在0~1,0为毫无关系,1为完全匹配,X3对应目标人群性别,1为男性,0为女性。再假定对应参数β0=5,β1=1.1,β2=-10,β3=1.5。现在搜索关键词是鲜花,广告是玫瑰,X1=50,X2=0.95,用户为男性,有Z=5+1.1*50+(-10)*0.95+1.5*1=52,点击率预估P=1/Z=0.019=1.9%
其中涉及两个工作,一个是如何选取与广告点击相关的信息,由专门从事搜索广告的工程师和数据挖掘专家来选择Xi;一个是决定参数βi。
上面的逻辑回归函数实际上是一个一层的人工神经网络,如果需要训练的参数不多,所有训练人工神经网络的方法都可以使用,但对预估点击率这样涉及上百万个参数的问题,需要更有效的训练方法。因为逻辑回归函数和最大熵函数在函数值和形态上有共性,所以训练方法也类似,训练最大熵模型的IIS方法可以直接用于训练逻辑回归函数的参数。
在搜索广告中,点击率预估机制的好坏决定了能否提高单位搜索的广告收入,目前谷歌和腾讯的广告系统都使用了逻辑回归函数进行预测。
3 小结
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,和很多指数模型(如最大熵模型)一样,它们的训练方法类似,都可以采用通用迭代算法GIS和改进的迭代算法IIS实现,逻辑回归模型在信息处理和生物统计都有广泛应用。