Course3:数据获取与处理
1.内部数据获取
2.外部数据获取
3.数据处理流程
4.数据处理流程详解
数据报告中涉及的数据
数据报告常用的数据来源
1.内部数据获取
内部数据包括哪些
数据仓库
- 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建
- 区别于业务系统:数据仓库整合各个行业系统生产的数据,以分析视角进行整理,按照分析所需的最细粒度存储
- 获取方式:SQL语句提取数据
-
获得的数据:明细行为数据,或到某一级别的统计数据
BI工具
- (Business lntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
- 在数据报告制作中,可以简单的理解为:将数据仓库中选中的数据进行可视化
- 获取方式:从公司获取登录账号,自行登录工具提取
-
获得的数据:图表,或到某一级别的统计数据
报表系统
- 区别于BI:报表系统只提供基本数据,不提供图表
- 区别于数据仓库:报表系统提供的数据固定,灵活性差,但不需要技术知识即可提取
- 获得的数据:明细行为数据,或到某一级别的统计数据
第三方监测数据
- 网站数据分析、APP数据分析和营销数据分析常用第三方监测工具,如Google Analytics、CNZZ、ADMaster等
-
获得的数据:明细行为数据,或到某一级别的统计数据
离线报表和历史报告
- 通常由同事处取得,可以简单理解为excel和PPT
- 两者均用于历史数据的获取
- 历史报告还可以作为新报告的参考
已有原始资料需要整理的数据
- 业务系统:获取业务系统权限,然后通过报表形式下载或写SQL提取数据
- 电子文档
- 纸质文档
需要进行收集的数据
- 日志:获取日志文件,并写脚本或委托程序员同学提取日志中所需的行为数据,逐级整理为数据表并入库,通常后续有持续需求时才会采用此种办法
- 埋点:写埋点文档,向程序员提需求获取日志数据并进行统计,或是使用无埋点工具自行处理
- 手工填写报表:零售业,金融业等有大量分支机构的行业
- 问卷:多用于市场调研
2.如何获取外部数据
外部数据包括哪些
搜索引擎
- 之前提到的行业市场数据,包括经济环境、行业发展情况、上下游发展情况、竞争者情况,可以通过搜索引擎作为入口,收集一切能够收集到的公开信息。
行业垂直网站
免费报告
- 尼尔森、艾瑞、易观智库等专门的市场研究公司提供
技术手段收集
- 爬豆瓣电影
- API接口可获取数据拥有者开放的信息
数据获取总结
- 对于尚未工作的各位
要写报告,必然是外部数据为主,因为没有太多机会获取我们定义的内部数据
学个爬虫,或者至少学个爬虫采集器的使用方法,对于获取数据的性价比很高,实在搞不定请淘宝 - 对于工作或尚未工作的各位:
搜索引擎是个好东西,一定要熟练使用
平时就注意收集感兴趣领域的数据和报告,需要用的时候就会事半功倍
数据处理流程
数据清洗
预处理
- 数据导入:100万条以下:excel,100万条以上:MYSQL、Navicat,1000万条以上:文本文件+python
- 元数据分析:字段解释、字段来源及产生方式、代码表......
- 人肉看数据:抽取小部分数据,人工观察;初步了解数据情况,肉眼发现一些明显可见的问题
缺失值处理
- 首先计算各变量的缺失度,之后按缺失度和变量重要性进行相应处理
缺失率50%以上就算高 - 以业务知识或经验推测填充缺失值
exAPP排名检测中,缺失某几天数据。根据业务经验可使用相邻数据填充 - 以同一指标的计算结果(均值、中位数、众数等)填充
ex年龄未填,使用占比最大的年龄填充 - 以不同指标的计算结果填充
ex年龄缺失,但可按身份证号计算
格式内容错误数据处理
- 1、时间、日期、数值、全半角等显示格式不—致
这种问题通常与输λ端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可 - 2、内容中有不该存在的字符
某些内容可能只包括部分字符,比如身份证号是数字+字母,中国人姓名是汉字最典型的就是头、尾、
中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动
校验半人工方式来找出可能存在的问题,并去除不需要的字符 - 3、内容与该字段应有内容不符姓名写了性别,身份证号写了手机号等等,均属这种问题。
但该问题特殊性在于:并不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端
没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别问题类型。
去除逻辑错误
- 去重
- 去除不合理值(箱图)
-
修正矛盾内容
去除不需要的字段和关联性验证
数据规范化
指标和格式计算
- 指标计算:根据原始数据计算一些指标,如变化率等
-
格式转换:把数据改成做表or做图的格式,例如将列数据转为交叉表
Course4:分析场景与常用图表
1.常见分析场景
2.常用图表
常见数据分析场景
经营分析
经营分析案例
目录
一、XX业务总体经营情况
二、XX业务重点产品经营情况
(一)子业务A
(二)子业务B
(三)子业务C
三、专题分析
四、下阶段重点工作安排
市场分析
市场分析案例
销售数据分析
销售数据分析案例
客户数据分析
用户分析案例——香水行业用户
互联网产品数据分析
互联网产品分析案例
数据分析场景总结
Course4:分析场景与常用图表
1.常见分析场景
2.常用图表
使用图表表示的内容类型
常见图表适用范围速查
条形图
柱状图
折线图
饼图
散点图,气泡图
雷达图
面积图
直方图
高级可视化
- 所要展示的内容基本图表无法满足时(词频统计)用高级可视化
- 饼图升级:树图,南丁格尔玫瑰图
- 折线图升级:平行坐标轴图,热力图
- 文本展示:词云
- 关系展示:和弦图
- 其他:地图
高级可视化工具有
- 离线界面型:Excel,Powerpoint,PS,Tableau
- 离线代码型:R,SAS,Python,D3.js,Process
- 在线型:Echarts,Tagxedo