数据分析报告制作(2)

Course3:数据获取与处理

1.内部数据获取
2.外部数据获取
3.数据处理流程
4.数据处理流程详解

数据报告中涉及的数据

image.png

数据报告常用的数据来源

image.png

1.内部数据获取

内部数据包括哪些

image.png
数据仓库
  • 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建
  • 区别于业务系统:数据仓库整合各个行业系统生产的数据,以分析视角进行整理,按照分析所需的最细粒度存储
  • 获取方式:SQL语句提取数据
  • 获得的数据:明细行为数据,或到某一级别的统计数据


    image.png
BI工具
  • (Business lntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
  • 在数据报告制作中,可以简单的理解为:将数据仓库中选中的数据进行可视化
  • 获取方式:从公司获取登录账号,自行登录工具提取
  • 获得的数据:图表,或到某一级别的统计数据


    image.png
报表系统
  • 区别于BI:报表系统只提供基本数据,不提供图表
  • 区别于数据仓库:报表系统提供的数据固定,灵活性差,但不需要技术知识即可提取
  • 获得的数据:明细行为数据,或到某一级别的统计数据
第三方监测数据
  • 网站数据分析、APP数据分析和营销数据分析常用第三方监测工具,如Google Analytics、CNZZ、ADMaster等
  • 获得的数据:明细行为数据,或到某一级别的统计数据


    image.png
离线报表和历史报告
  • 通常由同事处取得,可以简单理解为excel和PPT
  • 两者均用于历史数据的获取
  • 历史报告还可以作为新报告的参考

已有原始资料需要整理的数据

  • 业务系统:获取业务系统权限,然后通过报表形式下载或写SQL提取数据
  • 电子文档
  • 纸质文档

需要进行收集的数据

  • 日志:获取日志文件,并写脚本或委托程序员同学提取日志中所需的行为数据,逐级整理为数据表并入库,通常后续有持续需求时才会采用此种办法
  • 埋点:写埋点文档,向程序员提需求获取日志数据并进行统计,或是使用无埋点工具自行处理
  • 手工填写报表:零售业,金融业等有大量分支机构的行业
  • 问卷:多用于市场调研

2.如何获取外部数据

外部数据包括哪些

image.png
搜索引擎
  • 之前提到的行业市场数据,包括经济环境、行业发展情况、上下游发展情况、竞争者情况,可以通过搜索引擎作为入口,收集一切能够收集到的公开信息。
行业垂直网站
免费报告
  • 尼尔森、艾瑞、易观智库等专门的市场研究公司提供
技术手段收集
  • 爬豆瓣电影
  • API接口可获取数据拥有者开放的信息

数据获取总结

  • 对于尚未工作的各位
    要写报告,必然是外部数据为主,因为没有太多机会获取我们定义的内部数据
    学个爬虫,或者至少学个爬虫采集器的使用方法,对于获取数据的性价比很高,实在搞不定请淘宝
  • 对于工作或尚未工作的各位:
    搜索引擎是个好东西,一定要熟练使用
    平时就注意收集感兴趣领域的数据和报告,需要用的时候就会事半功倍

数据处理流程

image.png

数据清洗

image.png
预处理
  • 数据导入:100万条以下:excel,100万条以上:MYSQL、Navicat,1000万条以上:文本文件+python
  • 元数据分析:字段解释、字段来源及产生方式、代码表......
  • 人肉看数据:抽取小部分数据,人工观察;初步了解数据情况,肉眼发现一些明显可见的问题
缺失值处理
  • 首先计算各变量的缺失度,之后按缺失度和变量重要性进行相应处理
    image.png

    image.png

    缺失率50%以上就算高
  • 以业务知识或经验推测填充缺失值
    exAPP排名检测中,缺失某几天数据。根据业务经验可使用相邻数据填充
  • 以同一指标的计算结果(均值、中位数、众数等)填充
    ex年龄未填,使用占比最大的年龄填充
  • 以不同指标的计算结果填充
    ex年龄缺失,但可按身份证号计算
格式内容错误数据处理
  • 1、时间、日期、数值、全半角等显示格式不—致
    这种问题通常与输λ端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可
  • 2、内容中有不该存在的字符
    某些内容可能只包括部分字符,比如身份证号是数字+字母,中国人姓名是汉字最典型的就是头、尾、
    中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动
    校验半人工方式来找出可能存在的问题,并去除不需要的字符
  • 3、内容与该字段应有内容不符姓名写了性别,身份证号写了手机号等等,均属这种问题。
    但该问题特殊性在于:并不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端
    没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别问题类型。
去除逻辑错误
  • 去重
  • 去除不合理值(箱图)
  • 修正矛盾内容


    image.png
去除不需要的字段和关联性验证

数据规范化

image.png

指标和格式计算

  • 指标计算:根据原始数据计算一些指标,如变化率等
  • 格式转换:把数据改成做表or做图的格式,例如将列数据转为交叉表


    image.png

Course4:分析场景与常用图表

1.常见分析场景
2.常用图表

常见数据分析场景

image.png

经营分析

image.png

经营分析案例

目录
一、XX业务总体经营情况
二、XX业务重点产品经营情况
(一)子业务A
(二)子业务B
(三)子业务C
三、专题分析
四、下阶段重点工作安排


image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

市场分析

image.png

市场分析案例

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

销售数据分析

image.png

销售数据分析案例

image.png

image.png

image.png

image.png

客户数据分析

image.png

用户分析案例——香水行业用户

image.png

image.png

image.png

image.png

image.png

互联网产品数据分析

image.png

互联网产品分析案例

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

数据分析场景总结

image.png

Course4:分析场景与常用图表

1.常见分析场景
2.常用图表

使用图表表示的内容类型

image.png

常见图表适用范围速查

image.png

条形图

image.png

柱状图

image.png

折线图

image.png

饼图

image.png

散点图,气泡图

image.png

雷达图

image.png

面积图

image.png

直方图

image.png

高级可视化

  • 所要展示的内容基本图表无法满足时(词频统计)用高级可视化
  • 饼图升级:树图,南丁格尔玫瑰图
  • 折线图升级:平行坐标轴图,热力图
  • 文本展示:词云
  • 关系展示:和弦图
  • 其他:地图

高级可视化工具有

  • 离线界面型:Excel,Powerpoint,PS,Tableau
  • 离线代码型:R,SAS,Python,D3.js,Process
  • 在线型:Echarts,Tagxedo
树图
image.png
南丁格尔玫瑰图
image.png
平行坐标轴图
image.png
热力图
image.png
词云
image.png
和弦图
image.png
地图
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343