搜索广告从用户输入query到展示广告,主要流程可以大致分为以下几个部分:
一、query分析
二、广告检索
三、广告排序
四、点击扣费
在各种形式的广告中,搜索广告由于有用户表明自己意图的输入,因此通过对用户输入query的分析可以推荐相关性更高的广告,并且搜索广告天生就具有原生广告的特性,因此搜索广告的效果一般来说是比较好的(点击率、转化率等)。
比如用户百度搜索“京东商城卖的货是不是正品”,则会出现如下搜索结果:
图1-1
首先大致分析一下整体的流程,系统分析用户输入的query,并提取相应的关键词,如京东商城、正品等。然后根据提取的关键词从广告库中进行索引,还是以图1-1举例,由于京东公司买了“京东商城”的关键词,并且系统判定京东公司所购买关键词所对应的广告和用户搜索意图具有相关性,此时就可能会展示出京东商城的广告(右上角有“商业推广”的表示,这样对于广告不感兴趣的用户可以直接跳过该广告,避免给广告主带来损失)。
对于实际的搜索广告的流程肯定比上面描述的复杂很多倍,那么下面就详细的说明一下各个环节。
一、query分析
以电商网站中用户的搜索来举例,用户输入的query表明了用户的购物意图,因此电商网站会去分析用户的购物意图,给其推荐符合其购物兴趣的商品。举个例子,如果用户在电商网站中输入“斯伯丁篮球”,如果此时返回的广告中都是“李宁篮球”、“安踏篮球”甚至“更过分”的给出了“足球”的广告,那么这样的点击率肯定不会高的!点击率不高,就算广告主对于这个关键词的出价再高,那么对于投放广告的平台的收入也不会太高。(搜索广告行业的计费方法一般都是沿用Google的方法,即收费和点击率、出价有关,不同的公司会做一些调整,但大体是这个思路)。
由于query表明了用户的购物意图,那么就需要分析用户的购物意图,query分析主要会做以下三件事:
1.query文本分析,总的来说就是分词和对词性的标注
2.预测query对应的三级类目以及每个类目的概率
3.品牌识别
query文本分析一般来说就是分词和标注词性,举例来说,如果用户输入“男士运动鞋”,那么系统会将用户输入的词分为“男士”和“运动鞋”。
预测query对应的三级类目以及每个类目的概率其实也很好理解,前面已经说了分词和词性标注,那么就可以根据分词去预测这个商品会大致处于哪一个品类(商家在电商网站上发布商品时一般都需要填写商品的类目属性)。比如篮球在京东商城的一、二、三级的分类为:运动户外->体育用品->篮球,而篮球鞋在京东商城的一、二、三级的分类为:运动户外->运动鞋包->篮球鞋。当用户输入“斯伯丁篮球”时,三级类目中篮球品类的概率(例:0.9)一定远高于篮球鞋品类的概率(例:0.1)。那么这又有什么影响呢?影响在于如果广告主卖的是篮球鞋,但是他买了“篮球”这个关键词,这时候也不一定会出他的广告。这样就能够保证一定的相关性。
品牌识别主要的目的在于防止山寨产品,例如用户输入“阿迪达斯”,那么如果广告主卖的是“阿迪王”,这时候是肯定不能展现“阿迪王”的广告的。(该策略的目的就是为了保证广告的相关性,但如果广告平台想要更多的收入,就不一定不会采用这样的策略。在淘宝平台上,用户搜索“小米”或者“小米手机”,很有可能会出vivo手机的广告)
二、广告检索
广告检索是搜索广告的比较重要的环节,主要包括:查询重写、归一化和检索。
查询重写(query rewrite)就是对于用户输入的一个原始查询串,给出一堆和它相关联的改写串。原因在于用户输入的词不一定会有广告主买这个词,但是很有可能用户输入的词和广告主的买词其实很相近(从广告平台的角度来看,可以理解为广告平台想要扩大采买的流量)。比如说用户输入的query为“抗磨篮球”,那么广告主买了“耐磨篮球”这个关键词,从相关性的角度来说,其实也是可以向用户进行推荐广告的。
总之,用户搜索的query不一定能够精确匹配到广告主买词,因此需要查询重写来增加一些词来匹配到更多广告主的买词。
查询重写构造新的关键词的方式主要有如下几种:精确匹配、短语匹配、切词匹配等(不同的广告平台会有不同的匹配类型,比如淘宝就只有广泛匹配和精确匹配)。
如果用户输入的是“斯伯丁篮球”,那么精确匹配到的词是“斯伯丁篮球”。而短语匹配到的词可以是“耐磨斯伯丁篮球”、“室外斯伯丁篮球”和“斯伯丁篮球7号”等。
归一化其实表示的是一个多对一的关系,由于用户搜索词千变万化,不可能对所有的搜索词建立到竞价广告的倒排索引。因此就需要把多个意义相近的查询词归一化为同一个。(可以拿一个现实中的例子来说明,平时我们量身高的尺子的精度只会到CM或者MM,而实际上两个同样是175CM身高的人他们的真实身高也不会是一模一样的)
归一化能够帮组减少搜索引擎需要处理词的数量,但同时也会丧失掉一些语义的精度。
检索主要就是倒排索引和正排索引,其中倒排索引是根据重写后的关键词去找到相应的广告,而正排索引是根据找到的广告去查询广告的详细信息(推广计划、推广单元、推广创意等)。
检索广告时,会对相关性不高的广告进行过滤。此时query分析的结果就派上了用场,用分析得到的类目概率,去过滤掉那些相关性低的广告。
广告平台的过滤规则一般不只有类目过滤、品牌过滤。可能还会有去判断广告文案(title)和广告主买词的相关性等等。
关于倒排和正排
还是举例说明,假设所有网页中可以写入A或者空时,如果用户输入关键词A,那么如果想要检索哪个网页中有A时,此时需要检索2次。假设所有的网页中可以写入A,B或者为空,那么会有如下网页信息的组合:空、A、B、AB、BA。如果用户输入关键词A,那么如果逐个进行检索需要检索5次。当可以写入的信息变多时,检索的次数会以指数形式增加。如果仍然以这种方式逐个检索显然是不现实的做法。因此就有了倒排索引,简单来说就是系统提前将一些关键词从网页(广告)中提取出来,并建立一个映射关系,这种方式就叫做倒排索引。
正排就是根据找到的“序号”,去查网页(广告)的详细信息。
三、广告排序
在第二步中得到初步筛选的广告队列,还需要进行其他更精细的过滤。比如要根据广告本身的一些属性去判断是否能够播该广告,如投放地域的设置、投放时间的设置等。
当广告经过初筛和精筛,得到最终的广告备选库,会按照eCPM的方式进行排序,即按照广告出价和质量分(质量分反应了广告的“质量”,一般和广告的点击率、广告的创意,落地页的质量等等有关系)的乘积进行排序。排序得到的广告队列会被依次展示到网页或者APP端的各个广告位中。
四、点击扣费
搜索广告采用实时竞价的模式,每个广告主可以对购买的关键词进行出价,而扣费是采用广义第二高价(GSP)的扣费方式,一般都采用eCPM的方式进行排序:
eCPM排序:eCMP即期望最大收益eCPM = bidprice * eCTR^N;由于搜索广告是按照点击扣费,因此扣费时需将CPM转成CPC:
clickprice = bidprice(i) * [eCTR(i)^N / eCTR(i+1)^N]。
由于可能有的广告平台会存在移动出价系数以及搜索人群溢价,在计算bidprice的时候就需要进行换算,即
bidprice = ori_bidprice * 移动出价系数 * ( 1 + 人群溢价系数)。
公式中的N为价格挤压因子,是一个大于0的数,价格挤压因子的作用在于调节出价和点击率在eCPM中排序的权重。当N趋近于0时,此时决定排序的就是出价,而当N趋近于无穷大时,此时决定排序的就是eCTR。当竞价激烈,广告质量不高时,可以考虑提高价格挤压因子,使得高质量的广告可以展现,当竞争不够激烈,想提高广告收入时可以考虑降低价格挤压因子。