数据cpjl修炼手册

一、基础知识

1.1 常用工具

1.1.1玩转Excel

这是一个最常见，并且异常强大的一个工具。

需要掌握一下函数：

1-日期函数

day()、month()、year()、date()这四个不多解释，就是简单的返回日月年和具体日期

today():返回今日、weekday()：返回日期的星期数、weeknum()：一年中的第几周

2-数学函数

product()：所有以参数形式给出的数字相乘并给出乘积

rand()：取[0,1）间的一个随机数

round()：四舍五入

sumif()：按条件求和

3-查找引用函数

VLOOKUP()

4-Excel有一大利器（数据透视表）

可以快速的将大量数据生成分析和展示的报表，并且可以自由组合查看不同的角度，可以实现的主要功能有：

（1）自动计算分类间数据汇总、计数、最大、最小平均等

（2）自动排序和分组

（3）分析环比、同比、定基比等

（4）根据业务逻辑个性化分析

1.1.2SQL

日常必会的工具

1.1.3R

主要用来解决统计计算和绘图，提供了很多集成的统计工具，处理基本的R的基础知识以外，还需要掌握R的可视化包

1.1.4产品原型工具

主要使用的就是Axure、墨刀等操作类工具，产品功能和需求内容的主要示意。

1.2需求管理

对于用户来说，需求的本质就是用户的动机；对于工程来说，需求就是一个简单按钮的调整，或者一个数据计算口径的定义。

1.2.1需求来源与判断

通常需要通过用户调研、竞品分析、用户反馈、头脑风暴、数据分析等方面挖掘，数据产品通常也会有业务方直接提的数据需求

在需求对接后，需要先根据需求类别进行梳理，是提数类需求、数据接口类需求、数据分析类需求、产品功能类需求，还是数据优化类需求等

二、实践

2.1基本工作内容

（1）参与市场分析与需求调研，挖掘并梳理用户需求。

（2）负责公司大数据相关产品的规划，对产品全生命周期进行迭代和优化。

（3）与数据分析师配合构建数据模型产品，与数据研发工程师配合搭建数据仓库。

（4）撰写产品文档，跨部门进行资源协调、沟通，推动项目高效执行并高质量上线。

（5）深度挖掘大数据价值，负责数据变现相关项目。

2.2常用的分析方法

在进行数据分析之前，先想一下分析框架和分析方法。

数据分析方法一般有常规分析、统计模型分析和自建模型分析

2.2.1常规分析

一般把业务相关数据从Hive或者MySQL中导入Excel，然后在Excel中通过简单的表格、线图等方式直观地分析数据。

常规分析经常会用到同比和环比分析法与ABC分析法，即分析对比趋势和分析占比情况。

同比：某个周期的时段与上一个周期的相同时段比较，如今年的6月比去年的6月，本周的周一比上周的周一等。

环比：某个时段与其上一个时长相等的时段做比较，比如本周环比上周等。

ABC分析法一般以某一指标为对象，进行数量分析，以该指标各维度数据与总体数据的比重为依据，按照比例大小顺序排列，并按照一定的比重或累计比重标准，将各组成部分分为A、B、C三类。例如，经过长期的观察发现，美国80%的人只掌握了20%的财产，而另外20%的人却掌握了全国80%的财产，而且很多事情都符合该规律。

2.2.2统计模型分析

当掌握了大量数据时，我们往往希望在数据中挖掘出更多的信息，一般可以应用成熟的模型进行比较深入的分析。及通过已有数据来预测未来

我们经常会面对如下的业务场景：

（1）预测产品在未来一年内的日活用户数会按什么趋势发展，预估DAU。

（2）上线了某个营销活动，预估活动效果、用户参与度情况。

（3）对现有用户进行细分，预估到底哪一类用户才是目标用户群。

（4）在一些用户购买了很多商品后，预估哪些商品同时被购买的概率大。

四类问题有着不同的解决方案，基本如下：

（1）要用回归分析，例如预估DAU，因变量是DAU，与它有关的自变量有新增用户、老用户、老用户留存、回流用户等，然后根据历史数据，通过回归分析拟合成一个函数，现在常用的回归分析主要有线性和非线性回归、时间序列等。

（2）我们可以根据以往活动的数据，分析活动的各个影响因素在满足什么情况时才会产生我们想要的效果，并可以把有上线活动时和没有上线活动时的各项数据输入系统中，分类函数就会判断活动效果与哪些因素有关，目前常用的分类分析方法有决策树、朴素贝叶斯算法、KNN算法、神经网络算法等。

（3）以用聚类分析。细分市场、细分用户群都属于聚类问题，这样更方便了解用户的具体特征，从而有针对性地做一些营销等，常见的聚类分析一般有K均值聚类、分布估计聚类等。

最常用的聚类分析就是对用户进行分类。首先，要选取聚类变量，要尽量使用对产品使用行为有影响的变量，但是也要注意这些变量要在不同研究对象上有明显差异，并且这些变量之间不存在高度相关。例如，年龄、性别、学历等。其次，把变量对应的数据输入模型中，选择一个合适的分类数目，一般会选拐点附近的几个类别作为分类数目。再次，要观察各类别用户在各个变量上的表现，找出不同类别用户区别于其他用户的重要特征，选取最明显的几个特征，最后进行聚类处理。

（4）要用关联分析。关联分析在电商中的应用场景比较多，最经典的案例当属啤酒与尿不湿的搭配销售，常用的关联分析有购物篮分析、属性关联分析等。做关联分析一般要理解频繁项集和关联规则两个概念。频繁项集是经常出现在一起的物品的集合，关联规则暗示两种物品之间可能存在很强的关系。

2.2.3自建模型分析

当以上两种分析方法都不能满足业务的分析需求时，这时就需要自建模型进行分析。

由于每个公司的业务模式都不太一样，就需要根据自己的业务模式进行自建模型分析

2.3应用实例

2.3.1商城积分和DAU的关联分析

下面以一份简单的分析报告为例，主要分析商城积分与DAU的关联

1.背景

（1）领取过积分与未领取过积分的用户的DAU和平均停留时长是否有差别？

（2）领取过但未消费过积分与领取过且消费过积分的用户的DAU和平均停留时长是否有差别？

2.结论

（1）用户领取积分，能够有效提高DAU和平均停留时长，提高DAU （↑5.23%）的效果优于平均停留时长（↑3.25%）。

（2）从目前的数据发现，积分的使用/消费并不能明显提高DAU，对平均停留时长的提高影响更小。

3.分析思路

（1）用户分为三组。

①未领取过积分的用户。

②领取过但未消费过积分的用户。

③领取过且消费过积分的用户。

（2）分析这三组用户分别在领取/消费前后一周的DAU和平均停留时长。

4.详细数据和分析过程

1）未领取过积分的用户的DAU和平均停留时长，未领取过积分的用户在3月26日—3月31日和4月16日—4月21日的DAU和平均停留时长分别如表3-2所示。

结论：4月16日—4月21日期间未领取过积分的用户的DAU减少了10%，平均停留时长下降了15.2%。

2）领取过但未消费过积分的用户的DAU和平均停留时长领取过但未消费过积分的用户（2018年4月1日—2018年4月15日期间）在领取前后一周的DAU和平均停留时长分别如表3-3所示。

再来看一下领取积分前后，周一到周六DAU和平均停留时长的对比情况如图3-6所示。其中，蓝色曲线表示领取积分之前的DAU，红色曲线表示领取积分之后的DAU，紫色表示领取积分之前的平均停留时长，绿色表示领取积分之后的平均停留时长。

结论：

（1）与领取积分前一周内对比，用户在领取积分后的一周内，DAU平均增长了5.23%，平均停留时长增长了3.33%。

（2）与未领取过积分的用户在同一时期DAU和平均停留时长的前后对比可以发现，用户领取积分能够在一定程度上提高用户的DAU和平均停留时长，提高DAU的效果略好于平均停留时长。

3）消费过积分的用户DAU和平均停留时长消费过积分的用户（2018年4月1日—2018年4月15日期间）在消费前后一周的DAU和平均停留时长分别如表3-4所示。

再来看一下消费积分前后，周一到周六DAU和平均停留时长的对比情况如图3-7所示。其中，蓝色曲线表示消费积分之后的DAU，红色曲线表示消费积分之前的DAU，紫色表示消费积分之前的平均停留时长，绿色表示消费积分之后的平均停留时长。

结论：

（1）与消费积分前一周对比，用户在消费积分后的一周，DAU只增长了0.9%，平均停留时长下降了3.1%。

（2）从目前的数据中发现，积分的使用/消费并不能明显提高DAU，对平均停留时长的影响更小，由于4月消费积分的用户数量比较少，可以在消费积分用户数量比较多的时候再进一步比较

2.3.2基于时间序列预测订单量

需要预测订单量等数据进一步调控运营策略，提升企业的业务规模

在高方差（例如，假日和体育赛事）期间进行准确的时间序列预测对于异常检测、资源分配、预算计划和其他相关任务来说非常重要。

为了预测某网约车品牌的订单量数据，采用了一种新型的贝叶斯神经网络结构，该结构因易于引入外生变量和自动特征提取能力而成为流行的时间序列建模框架，通过利用大量数据跨越多个维度，LSTM（Long Short-Term Memory，长短期记忆网络）方法可以模拟复杂的非线性特征，这对于预测极端事件至关重要。当存在异常数据时，预测结果也不会因误差传播而导致误差增大。

首先进行数据抽取，用于预测的数据来源于以往的历史订单。选取目前开城的所有运营城市至今的日级别有效订单数据，并通过天气预报网站获取历史天气数据和天气预报数据，同时，要把节假日等因素考虑进来，这就需要爬取中国假日办公布的节假日数据。

然后，我们用时间序列特征构建模型，训练数据如下：

（1）采用滑动窗口，选取前28天的数据作为一个训练集。在每一个训练集内，通过对训练集进行对数变换，去除样本间波动幅度的影响。

（2）根据经验及数据可得性，构建最高温、最低温等天气特征和节假日特征这两个外部特征。

（3）构建模型。对于模型结构，使用RNN autoencoder+DNN Regression，RNN autoencoder可以用于降维，提取特征，然后再使用深度学习DNN构建回归模型

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,137评论 6赞 511
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,824评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,465评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,131评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,140评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,895评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,535评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,435评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,952评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,081评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,210评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,896评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,552评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,089评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,198评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,531评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,209评论 2赞 357