1 数据分析概述以及统计学基础
1.1 数据分析概述
数据分析是以解决业务需求为最终目的
① 数据分析的八个层次
② 大数据对传统小数据分析的拓展以及区别和联系:
其实我个人感觉:小数据相当于就是数据分析对应的数据,大数据相当于就是数据挖掘对应的数据。所以也可以把这些理解成是数据分析和数据挖掘在数据上面的区别
数据上:小数据重抽样,大数据重全体 传统小数据分析的本质上是一句样本推断总体;大数据在建模的方法上已经偏向于机器学习,因此抽样已经不是最必要的手段和方法了。
方法上:小数据重实证,大数据重优化
目标上:小数据重解释,大数据重预测 我个人认为数据挖掘当中,预测是最重要的一个解决问题的方式
3 客户的生命周期管理
④ 数据分析方法论:
一 CRISP-DM5
CRISP-DM5
从图中可以看出,一切的挖掘和开发都是围绕数据本身的,对于一个数据分析师来说处理好数据就成功一大半了。
在学习这里的时候,其实要明白数据分析是的生态系统,还有生态分析的定位,因为不可能只是为了应付考试,如果真的想要入行,推荐一个视频:
https://www.bilibili.com/video/av22556168?from=search&seid=5444609284462524239
我有专门的一篇文章是关于这个视频的总结,有兴趣的可以去看看:数据分析师能力的养成
第一步:业务理解
该初始阶段集中在商业角度理解项目的目标和要求,通过理论分析转化成为数据挖掘可以操作的,制定实现目标的初步计划(相当于就是把大目标一步一步的拆分成可以实现的小目标)
第二步:数据理解
数据理解阶段开始于原始数据的收集,然后是熟悉数据,表明数据质量的问题,探索对数据的初步理解,挖掘有趣的子集以及需要京城探索关系的假设
第三步:数据准备 第四步:建模 第五步:模型评估 第六步:模型发布
二 SEMMA