数学之美(二十八)

逻辑回归和搜索广告

搜索广告能预测用户可能会点击哪些广告,从而决定在搜索结果页插入哪些广告,而且搜索者的目的明确,更容易贡献点击量,因此搜索广告的收入远远超过传统的在线展示广告。

1 搜索广告的发展

搜索广告有三个发展阶段:一是以早期Overture和百度广告系统为代表,按广告主出价高低来排名的竞价排名广告,谁给钱谁说了算,雅虎还假设给钱多的公司更靠谱,不会伤害用户体验,但实际上给钱多的一般是奸商,很快用户就不点广告了,雅虎的单位搜索量收入(以千次搜索量带来的收入衡量,称为RPM)不到谷歌的一半,而谷歌是预测哪个广告可能被点击,结合出价和点击率来决定广告投放,搜索广告的第二阶段就是预测用户点候选广告的概率,或称点击率预估。第三阶段则是对全局的进一步优化。

预估点击率的最好办法是根据以前的经验值预测,比如对特定查询,广告A展示了1000次,被点击8次,广告B展示了1200次,被点击30次,AB的点击率分别为1.8%和2.5%,如果二者出价相当,似乎应该优先展示广告B。但实际问题中没有这么简单:第一、不适用于新广告(没有历史点击数据);第二、即使是旧广告,一个查询对应的特定广告多半只有两三次点击,统计的数据严重不足,很难说被点击3次的广告比被点击2次的好(不能在楼下看到三女二男,就说整栋楼男女比2:3);第三、广告点击量和广告位置相关,放在第一条的广告点击率肯定比第二条高,因此预估点击率时需要消除这个噪音。此外影响点击率的因素很多,在预估点击率时都需要考虑。

这么多因素要用一个统一的数学模型来描述已经非常复杂,我们还希望这个模型能随着数据量的增加越来越准确,早期有很多对经验值进行修正和近似的做法,到整合各个特征时效果都不是很好。后来工业界普遍采用逻辑回归模型logistic regression或logistic model

2 逻辑回归模型

逻辑回归模型是将一个事件出现的概率适应到一条逻辑曲线(logistic curve,值域在(0,1)),逻辑曲线呈S状,特征是开始变化快,逐渐减慢,最后饱和,一个简单的逻辑回归函数形式如下:

对应曲线为:

还蛮像氧离曲线的哈

逻辑自回归的好处是变量范围在-∞到+∞,而值域限制在0~1(变量在[-6,6]之外的函数值基本没有变化,实际应用中一般不予考虑),而概率函数的值域也在0~1,这样逻辑回归函数可以跟概率相联系,而自变量值在实数域的好处是,无论信号组合成多大或多小的值,最后依然能得到一个概率分布。

假如有k个影响点击率的变量x1,x2,...,xk,进行线性组合:

其中每个xi为变量,代表影响概率预测的各种信息,比如广告位置、广告和搜索词相关性、广告展现的时间(如晚上广告的点击率略高于下午),对应的βi称为其自回归参数,表示相应变量的重要性,β0是一个特殊参数,与所有变量无关,用于保证在没有任何信息时有一个稳定的概率分布。

比如预测有关鲜花搜索的广告点击率,假设影响因素分别为:每千次展示的点击次数(或者说单位点击量所需要的展现量)、广告和搜索的相关性、目标人群的性别。假设X1对应单位点击所需要的展现量,X2对应广告和搜索的相关性,变量在0~1,0为毫无关系,1为完全匹配,X3对应目标人群性别,1为男性,0为女性。再假定对应参数β0=5,β1=1.1,β2=-10,β3=1.5。现在搜索关键词是鲜花,广告是玫瑰,X1=50,X2=0.95,用户为男性,有Z=5+1.1*50+(-10)*0.95+1.5*1=52,点击率预估P=1/Z=0.019=1.9%

其中涉及两个工作,一个是如何选取与广告点击相关的信息,由专门从事搜索广告的工程师和数据挖掘专家来选择Xi;一个是决定参数βi。

上面的逻辑回归函数实际上是一个一层的人工神经网络,如果需要训练的参数不多,所有训练人工神经网络的方法都可以使用,但对预估点击率这样涉及上百万个参数的问题,需要更有效的训练方法。因为逻辑回归函数和最大熵函数在函数值和形态上有共性,所以训练方法也类似,训练最大熵模型的IIS方法可以直接用于训练逻辑回归函数的参数。

在搜索广告中,点击率预估机制的好坏决定了能否提高单位搜索的广告收入,目前谷歌和腾讯的广告系统都使用了逻辑回归函数进行预测。

3 小结

逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,和很多指数模型(如最大熵模型)一样,它们的训练方法类似,都可以采用通用迭代算法GIS和改进的迭代算法IIS实现,逻辑回归模型在信息处理和生物统计都有广泛应用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容

  • 数学之美 不同的文字系统在记录信息上的能力是等价的 图灵测试 通信六要素 :发送者(信息源)、信道、接受者、信息、...
    IT_小马哥阅读 1,010评论 0 2
  • 第一章、 文字和语言vs数字和信息 简要介绍了语言和文字的发展过程 第二章、 自然语言处理 在上世纪50年代到...
    hyhchaos阅读 402评论 0 0
  • 原文引自 豆瓣《数学之美》-笔记总结 第1章 文字和语言vs数字和信息 讲述了文字、数字和语言的历史,目的是帮助...
    _Haimei阅读 1,519评论 0 3
  • 作者:吴军 第1 章文字和语言 vs 数字和信息 第2 章自然语言处理 — 从规则到统计 第3 章统计语言模型 概...
    LeaChau阅读 270评论 0 0
  • 写在之前 如需转载,请注明出处。如有侵权或者其他问题,烦请告知。 第1章文字和语言 vs 数字和信息 文字和语言与...
    hainingwyx阅读 1,144评论 0 2