数据分析报告制作
一、课程目标
1.数据报告的基本概念
2.数据报告的适合场景和需求收集整理方法
3.如何搭建一个有说服力的报告框架
4.从哪些来源获取报告所需数据
5.有哪些常用分析方法和统计模型可以用于数据报告
6.常用图表的适用范围和样例
7.做好的报告如何使用更有效果
8 其他经验小技巧
二、课程目录
1.做报告之前的预备工作
2.搭建故事线
3.数据获取与处理
4.分析场景及常用图表
5.结论撰写与报告使用
Course1:做报告之前的预备工作
数据报告的概念:数据报告是以数据为基础,发现问题,说明事实,给出结论的报告
数据报告的目标: 通过数据分析来发现问题和说明事实,并提出解决方案(对应问题)和洞察结论(对应事实)
(将数据与业务连接起来)
数据报告的类型及应用范围
数据报告需求的收集与梳理
制作步骤
Course2:搭建故事线
数据分析报告包括论点-论证-论据三要素,洞察结论=论点,逻辑框架=论证,数据=论据
故事线,即报告的逻辑框架
最基础的结构: 总-分-总
- 第一个总通常为结论或叙述
- 第二个总通常是结论+解决方案
结论先行,数据跟上,逻辑完善,备注其他
image.png
多部分数据报告结构: 总-(分-总×N)-总
通常用于经营分析、市场及行业分析、品牌诊断分析等由多个相对独立的部分组成,共同说明一件事情的数据分析报告
经常会省略第一个‘总’的部分,变成(分-总×N)-总的形式
简单报告:总-分or分-总
总-分结构是1页PPT,先说结论再说数据,分-总同理,但是通常1页无法解决问题
常用分析模型
5W2H思考法
战略模型
*波士顿矩阵
使用BCG矩阵思想的一个应用:BDI&CDI矩阵
BDI(Brand Development Index)是将各个地区的品牌发展与全国的品牌发展总体水平作比较,从而看出各个地区品牌水平的高低。
计算公式为:BDI=地区品牌发展/全国品牌发展×100-
品类发展(Category Development)是测试一个品类在特定人口阶层的销售表现。特定人口阶层可以按年龄、性别、收入等人口统计变量来划定,这里是按地区做区分。
计算公式为:品类发展=品类销售量/人口数
而品类发展指数CDI是把各个地区品类发展与全国的品类发展总体水平作比较,从而看出各个地区品类发展水平的高低。
其计算公式为:CDI=地区品类发展/全国品类发展×100=(地区品类销售量/全部品类销售量)÷(地区人口数/全国人口数)×100
image.png
波特五力
战略分析工具,用于市场和行业分析
数据在这一分析过程中起到的作用相对较小,但仍然不可忽视
PEST
战略分析工具,用于制定企业的整体战略,也可用于制定某一产品的战略
分析时基本使用外部数据,对企业内部数据要求不高
营销策略模型
-
4P模型:营销策略制定工具,从品牌商的角度出发考虑问题
对数据的需求非常强烈,尤其是对消费者洞察的部分
在此基础上发展出了4C模型
image.png -
4C模型: 营销策略模型,从消费者出发考虑问题
极度需求消费者洞察数据
image.png - 转化漏斗:根据描述业务的不同,可以使用不同的漏斗形式
属于基本模型,其升级版是转化路径
image.png
忠诚客户指多次购买产品并且愿意把产品推荐给他人的消费者
image.png
数据挖掘模型
数据挖掘模型在数据分析报告中的作用
1.70%以上的数据分析报告,使用基本的描述统计方法(均值,分位数,同环比,变化趋势,透视/下钻等)即可解决
2.但有时需要对已经有的数据做更深度的挖掘(如数据库营销的人群划分,市场研究的竞品分类,从数据出发的销售额预测等),这时就需要建立数据挖掘模型,也就是所谓的“建模”
3.在分析报告中使用挖掘模型时需要注意:
- 充分评估使用挖掘模型的必要性,切忌为了建模而建模
- 建模过程要充分迭代,评估每次迭代结果时要从方法和业务两个方面来进行
-
写到报告中时,通常要提供充足的模型信息(数据来源,时间跨度和用了什么方法,关键参数),不能只给结果,但对外展示型报告除外
image.png
聚类
有预先定义群数的K=means算法和从底层向上汇总的系统聚类方法
简单来说:知道能分成几类,或者想先分一下试试:K-means
不知道能分成几类,想先看看那些东西/人的特点相似/相同:层次(系统)聚类
K-means
典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
需要预先定义希望聚成的类别数量,类别数量的多少影响结果。
层次聚类
凝聚的层次聚类是一种自底而上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。
分裂的层次聚类采用自顶向下的策略。
K-means应用举例:RFM模型
RFM:
- 最近一次消费(Recency)
- 消费频率(Frequency)
- 消费金额(Monetary)
我们可以将客户名单重构,认为每一个客户是具有R,F,M三个特征的一个对象。之后,对客户使用K-means方法聚类,针对每类客户分析其特征,制定对应的销售方案
扩展阅读:豆丁网“基于RFM模型的烟草客户聚类分析研究”
分类
在预先知道类别以及类别特征的情况下,将物理或抽象对象的集合分到各个类别中的过程称为分类。
由分类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
相似和相异的定义,来自于对象的特征
分类所要求划分的类是已知的,二分类(是)也是分类的一种
我不知道各个类别的特点,只知道有一些东西/人属于哪个类别:决策树
我知道各个类别的特点,但规则太多了我不想写或者写不过来:相似度计算
相似度计算
- 欧氏距离————最简单
-
针对史书向量的余弦相似度(Cosine Similarity)————最常用
针对二元向量(取值只有是或否,0和1)的杰卡德相似系数(Jaccard Similarity)
image.png
image.png
决策树
- 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率
-
简单来说,就是有一部分人/东西已经知道了他们/它们的所属分类,那么把特征抽取出来以后,挖掘不同类别所具备的特征,后续使用特征来对未分类的人/东西进行分类
image.png
回归
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测
简单来说
我现在知道了一些事情的结果,和影响结果的因素,比如毎月赚1000块的人花800,而赚2000的人花1600
我需要知道,哪些因素会彯响结果,影响的程度如何,我知道了因素能否根据因素推导岀可能的结果
结果是连续的线:线性回归( inear regression)
结果是孤立的点(如“是”或“否”,或是类别1,2,3,4):逻辑回归( Logistic Regression,LR)
降维
- 数据的每一个特征都是一个维度
- 高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量
- 数据特征过多,想找到主要的特征:主成分分析,因子分析
- 数据特征太多没法画图,想画在二维图表上:对应分析/MDS分析
主成分分析和因子分析
主成分分析是设法将原来众多具有一定相关性的指标,导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此不相关,通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标
简单来说,就是将原来的所有特征,转换为少数的新变量,尽量少的丢失信息因子分析是指研究从变量群中提取共性因子的统计技术,可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变归入一个因子,可减少变量的数目,还可以检验变量间关系的假设
简单来说,就是用少数新变量来描述原有的各个特征之间的差别-
两者区别
1、主成分分析是单纯的变量转换,而因子分析是完整模型,且分析过程中会用到主成分分析
2、主成分分析不考虑可解释性,而因子分析的结果必须进行解释
3、以上两条决定,主成分分析是分析过程中的一步,而因子分析有可能是分析过程中的一步,也有可能已经是分析结果
image.png
对应分析
-
从因子分析基础发展起来的一种多元统计分析方法,通过分析定性变量构成的列联表来揭示变量之间的关系
image.png
蓝色点代表特征
时间序列
主要目的是根据已有的历史数据对未来进行预测,与回归的主要区别是可以剔除周期的影响
文本挖掘
- Word2Vec:挖掘文本上下文之间的关系
- Doc2Vec/LDA:文档分类
文本相似度:计算不同文档之间的相似程度,也可以用来分类