论文- Revenue Debugging in Advertising Systems

1-概述

该篇论文主题是广告系统中针对广告收入异常波动根本原因分析;

提出的Adtributor算法主要是基于指标期望值和实际值的分布,计算其js散度,找到影响指标最大的维度及其维值集合。

此外,论文也针对衍生指标的根因分析方法做了讨论(这块没有深入看)

2-问题&引入

针对一组维度(每个维度多个维值)下指标,如数据中心、广告商、终端设备这三个维度下的广告收入,如果某天广告收入剧降50%(期望100,实际收入50),那么需要定位到到底是哪个维度下哪些维值导致的广告收入的剧降---简单理解为找到对广告收入波动影响最大的因素(维度->维值);

如何找到引发广告收入波动的主要因素,作者引入下面辅助概念/方法:

Boolean表达式

      作者用一个boolean表达式量化表示出广告收入的波动影响,针对上面三个分维度的广告收入波动情况表中,可以表示为:

稻草人方法(strawman approach)

      根因分析如何找到最优解: 作者提出了一个稻草人方法(strawman approach):找出维度和该维度下一组元素,其收入下降至少是总收入下降的阈值分数TEP,并且最简洁。

explanatory power (EP)-解释力

      作者定义explanatory power (EP)-解释力量化为它解释度量变化的分数。 我们将一组元素的简洁性(P)量化为表达式中元素的总数。 因此,稻草人将找到具有至少TEP的解释力的表达式,并且使用最少数量的元素。

由上面三个定义,如果使用Occam剃刀原则-简单有效原理--只要在一定误差范围下,最简洁的就是最好的解释。针对上面三个boolean表达式,设置TEP阈值为90%,那仅数据中心下维值X就可以解释总下降的94%;但是这种方法在存在多个维度时具有导致根的缺陷,虽然数据中心X的收入下降占总收入下降的94%,但预测和实际收入在两个数据中心X和Y之间平均分配。数据中心X提供了94%的预测收入(94美元中的 100美元)和94%实际收入(50美元中的47美元)。 数据中心Y在两个价值中贡献了6%。 相比之下,在设备类型维度中,设备类型PC占预测收入的50%(100美元中的50美元),但实际收入的98%(50美元中的49美元)。 移动和平板电脑类型的贡献也有很大差异,从预测收入的25%到实际收入的0%。 贡献因广告尺寸而异,但不如设备类型尺寸那么多。

作者提出,针对广告收入根因分析可以拆解三块:

对于维度,找到至少解释度量变化的阈值分数TEP的所有元素集(具有高解释力)。

在每个维度的所有此类集合中,找到该维度中最简洁的集合。

对于所有维度的所有此类集合,找到在贡献变化方面最令人惊讶的集合。

3-算法核心

3-1 基础定义和核心概念:

符号定义

Explanatory power

      EP:该维度i的维值j的实际波动占总体波动贡献

EPij = (Aij(m) − Fij )/(A(m) − F (m))

Surprise

      先计算每个维度的元素预期指标占比分布和实际指标占比分布:

获取这两个占比后,一般是使用K-L散度来衡量两个分布的差异,但是由于K-L散度非对称且可能无界,所以使用JS散度来表示:

针对每个元素,其surprise Sij这样计算:

3-2 算法流程

其伪码计算流程如图:

算法使用了以下贪婪的启发式算法,而不是枚举具有至少TEP解释力的各种最小基数子集。在每个维度中,在计算所有元素的surprise(第1-5行)之后,它首先按照surprise的顺序对元素进行排序(第8行)。然后,只要该元素至少解释了总异常变化的TEEP(第12-15行),它就会将每个元素添加到候选集中。参数TEEP有助于控制集合的基数(奥卡姆剃刀)。例如,如果TEEP为10%且TEP为67%,我们最多可以有7个元素来解释异常变化。此外,通过将suprise倒序排列,贪婪地寻求最大化候选集的suprise。 该算法每个维度最多添加一个候选集(第16-19行),只要该集合能够解释异常变化(解释力)的大多数(TEP)。 最后,该算法按照其惊喜值对各种候选集进行排序,并将前三个最令人满意的候选集作为潜在的根本原因候选者返回(第21-22行)。

算法最终输出是Suprise的top3的元素集合(每个维度有一个Suprise)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容

  • 说真的 我喜欢你 心底认真不服输 潮汐怀念约定 多希望祝福 还在这里 该为右耳重新骄傲 受点悲欢离合 好让每个呼吸...
    朵鹿阅读 87评论 0 0
  • 黑夜,她一个人走在路上,没有什么明确要去的地方。路上大部分是出来遛弯儿的人。在这个小城市,吃过晚饭,基本上就没有什...
    70e9b1e7db18阅读 293评论 0 2
  • 自白 从前有一只小蜗牛,它爬得很慢很慢,它喜欢东张西望,喜欢停下来听风的声音,喜欢吃果子。它常常羡慕蝴蝶有美丽的翅...
    美少女晓露阅读 393评论 2 7