内外数据整合的一点心得

最近几个月一直在折腾内外数据整合,稍微写点心得。

先做个“不内外整合“的铺垫,传统的“基于内部数据的优化”,大概分为如下步骤

  1. 获取自己的每一步的内部转化率

  2. 通过调研竞品,熟人打听之类,得到标杆

  3. 选择内部转化率最差的步骤改进,ab测试

参考我以前的文章

如何在45分钟内改善一个网站的转化率

【整理版】漏斗图的两个实际工作案例

这种方式的优点是:容易上手,缺点是:依赖标杆、流于表面,大部分市场上的竞品互相抄袭,最后同行业做到差不多的转化率,就是这么来的。

本文想讨论的是,在内部数据基础上,引入外部数据,我之前的文章有类似:

竞争对手比价分析

如何用数据解释“知己知彼”

内外整合的数据分析,增加了更多的信息量和不确定性,如果说基础优化只需要中学数学的话,这个步骤需要一点点本科的概率论,大概可分为如下步骤:

  1. 分析内部数据,尝试解释波动和做优化。这时遇到了无法解释的波动,和完全不符合预期的结果。

  2. 抓取直觉上觉得有关(且抓的到)的外部数据,选择合理的颗粒度和内部数据关联。例如每天某商品价格对比,和当天该商品销量。

  3. 尝试引入单个外部数据,解释纯内部数据无法解释的波动;尝试将外部数据组合起来,关联内部数据做解释和预测。

不难发现,这已经是在玩计量经济学了,实际上整天考虑成本、取舍、效益、进度管理之类的,产品运营这个岗位本来就很经济学,只不过现在更加强调数据,门槛大大提高了而已

(有个梗是这样,传统的需求可以说,我需要这个按钮产生低价排序,而大数据时代,如果提个需求是,我需要这个按钮产生客人需要的排序,这个岗位就是废的,实际的需求还是要有人来提)。

在数据内外整合的落地方面,我个人理解有三点心得。

一、定量的习惯

现在网上教程动辄祭出“机器学习”,然后问题就解决了,实际工作里,这些关起门来的分析对于业务的帮助大部分很小。多大程度上将业务的定性语言,定量地描述出来,以扩大数据分析的范围,这一步远远比后续套模型、调参数,来得重要。

所谓的数据驱动,我理解分为两部分,第一个部分是,假如现实世界的所有问题是一个空间,数据能解决的问题是一个子空间,我们需要努力扩大这个比例。第二个部分是,在数据能解决的子空间里,有相当部分是限于计算资源,或方法过于原始,导致理论上能解决而实际无法(在有生之年)解决的,这部分是算法科学家和硬件科学家努力的方向。

我想说,第二部分和我们互联网业者是没有半毛钱关系的(除了那些整天要公司花几百万买设备的数据大拿们,虽然他们没错,但是第二部分的投入效益极低,只有大公司和烧钱的可以玩),大家只需要关注第一部分就足够了。而第一部分是完全可以通过习惯养成来潜移默化推进的。

例如说我面试一个小朋友,问他如何评估一个新闻对近期转化率的影响,可能有两种回答:

1、我觉得大部分人不会关心新闻,所以看看销量有无变化就好,其实就算有,也不一定是因为新闻。

2、可能看看搜索指数在各个分类的起伏,看看品牌搜索是否在没有活动情况下起伏,新客的来源结构是否有变化(以及和搜索指数抖动是否形似),被访问的热门内容是否有变化,留存率是否有变化。

显然如果一个团队里都是第一种的话,数据驱动的那个子空间就非常非常小,可能就天天抄抄竞品,在其他支持组能支持的数据范围内,追追ab对比,就完事儿可以等年终奖了(大部分打工心态的互联网公司都是这样,不然创业公司怎么有机会呢);

而第二种团队里,数据驱动的空间就大很多,可以轻易发现很多“低悬的果实”,缺点是得到成果很不稳定,而且看起来比第一种团队要不务正业的多—这也是为什么说,数据驱动要从管理层开始的道理之一,呵呵。

二、倒推的习惯

很多人都知道搜索引擎最初的ranking原理就是,越多某个话题指向的网站,越相关于某个话题,这显然是一种“倒推”,“倒推”是统计学思想的精髓。

无论是分析历史数据,还是对预测的未来数据进行回顾,我们看到的都是一大堆的“结果”,有些根据内部数据得到的预测和结果完全不符的,引入外部数据以后,有可能会呈现出某种规律性,这就是我们在追寻的。

第一批外部数据的选择,肯定是拍脑袋,正如前面的几篇博客提到,价格对比、覆盖率对比、多样性等,属于根据直觉,就觉得可能会影响转化率的外部数据,玩一下以后你会发现,的确能解决一些问题,但还有大量无法解释的结果,也就是还有大量的特征等待你去发掘。

怎么找特征也有大量的充满术语的可怕文章,用一个简单的类比,当以色列特工潜入非洲拯救人质的时候,他们用以色列语大喊趴下,然后射杀所有站着的人,这就是一个最简单的、用于分开人质和恐怖分子的数据离散分析,用excel也完全可以做到,就是这么简单。

有时也会有funny的收获,例如有些输入输出是毫无道理的,像是价格变贵、覆盖变少,但是销售变好了,当然了这肯定说明你漏了什么重要的因素没有考虑,但是在找到之前,如果数据显示真的足够离散,不需要去追究为什么,因为你现在可能正在以你没想到的方式影响那个隐藏特征,先用起来再说。

三、工具也需要优化

内部数据可以用非常原始的方法去分析,至今有很多手算转化率的日常工作,但是加入外部数据以后,由于数据结构的复杂,分析的耗时指数增长,原来的方法和工具不再适用,这时候才会诞生大量的指标、指数、可视化。

虽然金融行业早就已经达到了这个水平,但其他行业还都是刚刚开始,对于颗粒度、周期隔断的摸索还很初步,可能大部分人对自己每天看的指标,应该如何离散化,都不如家里炒股票的父母对各种k线分类的掌握。

当数据多到一定程度的时候,你可能会感觉到,只有相关性、数量级数才是有意义的,具体的数字反而没有感觉了,例如说某行业转化率应该是淡季2%,旺季5%,这种传统经验会变得毫无意义。

如果到达这个境界的话,可能会感觉到我这篇文章想表达的一种,怎么说呢,焦虑和期望吧。

谢谢阅读。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容