小议数据 之 外部数据

"数据驱动"这一概念在互联网企业早已不新鲜。前几年,我们会花很大的精力去关注企业内部数据,包括:企业CRM,订单,网站分析工具收集的用户行为,以及广告推广后台数据等。根据企业内部的数据,我们可以:判断营销活动与推广渠道的质量与效果,并对营销组合进行优化 -- 营销;对产品与内容进行优化 -- 运营。但是,即便是现在,企业也很难利用好内部数据,其中一部分原因包括:

1)渠道的效果很大程度地依托于归因模型,cookie时长等因素,很难去准确判断  

2)数据收集过程十分复杂,而业务和分析人员 容易忽略这些因素去决策。

3)营销与运营需要多数据支持,并不局限于内部数据。

所以,越来越多的互联网公司会试图打通内外部数据,也有不少乙方公司做一些数据产品,用于辅助企业决策。

接下来我们就谈谈外部数据,外部数据主要有以下数据源:

1)  运营商数据

2)互联网中的Open API (包括免费及付费)

3)由互联网企业以及数据产品企业组成的数据联盟(各成员之间的数据可以互相Share)

4)DMP产品(主要用于匹配用户标签)

5)互联网中的数据抓取(非正规但很常用)

那么外部数据可以做什么?

1)引入外部数据因素,完善KPI预测模型。

2)了解行业与竞品分析

3)辅佐营销,比如SEO的数据,Social 数据等

接下来我们说一下非正规但很常用的抓取,数据抓取方法我用了一个简单的脑图来表示:


抓取

简单说一下,如果是抓取网页 可以通过抓取网页,或者找到网页所请求的接口;如果抓取APP上的数据,则需要通过抓包工具了,比如截取http请求的fiddler,或者截取tcp/ip请求的wireshark工具。

正好前几天被问到,怎么抓抖音上的数据,于是在这里举个例子,

首先打开fiddler并且连接手机,经过一些配置使fiddler可以监测到手机上的请求。我们可以看到抖音APP请求的数据接口(以抖音的某个列表View为例):

抖音列表接口

以及返回的数据(JSON格式)

抖音接口返回数据


以及用户数据API及返回数据:



找到了API,后面的抓取就可以通过调用API来进行了,再把返回的Json数据中所需要的数据截取出来写入数据库即可,当然还有一些注意事项:

1)HTTP请求时需要一起发送的Header

2)接口请求频率与抓取模式(规避anti-spam机制)

3)获取一条数据简单,但是大批量获取难度就大了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容