第1章 数据分析初探
1.1 “数据+”时代到来
1.2 什么是数据分析
用适当的统计分析方法对收集来的大量数据进行分析,提取游泳信息和形成结论,对数据加以详细研究和概括总结的过程。
1.2.1 数据分析的目标
- 过去发生了什么
- 寻找问题的原因
- 预测
1.2.2 数据分析的分类
- 描述性分析:已经发生了什么
- 预测性分析:将发生什么
- 指导性分析:应该怎么办
描述性分析是传统数据分析的主要应用领域,使用的技术主要有基于数据仓库的报表、多维联机分析处理等,通过各种查询了解业务中发生了什么,寻找数据中的存在模式。例如,本月某类商品销售额是多少,客户平均订单价值是多少,客户留存率是多少。
预测性分析主要基于大数据(实际上也可以基于传统的数据仓库和数据库),仓用各种统计方法以及数据挖掘技术预测业务中各个方面将要发生什么。例如,基于过去几年的时间列销售数据预测明年的销售额;基于聚类分析、分类分析、逻辑回归等技术预测客户信用等级;基于关联分析预测不同商品组合可能产生的销售效果。目前各类热门的大数据方面的统计应用,包括数据挖掘技术等,都可归类到预测性分析。
Prescriptive Analytics。此类分析的内在含义是它会告诉用户应该做什么以得到最优的结果。它主要采用运筹科学的方法,即运用数学模型或只能优化算法,对企业应该采取的最优行动给出建议。例如,采用数学模型确定最优的商品定价以实现利润最大化。再比如,应该怎样实现网页的最优广告位布局、生产企业最优的生产拍成、最优的劳动力排班等。
本书重点讲描述性分析与预测性分析。
1.2.3 典型的数据分析方法
数据分析与统计分析密不可分,从统计学角度,可以分为以下几类:
- 描述性统计分析:应用统计特征、统计表、统计图等方法,最资料的数量特征及其分布规律进行测定和描述
- 验证性统计分析:侧重于对已有的假设或模型进行验证
- 探索性数据分析:主动再数据之中发现新的特征或游泳的隐藏信息
-
描述性统计分析是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简单地用几个统计值来表示一组数据的几种趋势、离散程度以及分布形状。
1.1描述性统计分析.png 验证性统计分析是对数据模型也研究假设的验证,参数估计、假设检验以及方差分析是验证性统计分析中常用的方法。所谓参数估计就是用样本统计量去估计总体的参数。假设检验于参数估计类似,但监督不同,参数估计是利用样本信息推断未知的总体参数,而假设检验是对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。假设检验分析可分为:
- 单样本假设检验
- 双样本的均值比较假设检验
- 成对样本的均值比较假设检验
方差分析则是通过比较总体各种估计间的差异来检验方差的正太总体是否具有相同的均值,是检验多因素之间差异显著性的重要统计方法,常用的方差分析方法有:
- 单因子方差分析
- 双因子方差分析
- 探索性数据分析是指对已有数据再i贾乃亮少的先假设下通过作图、指标、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
1.3 数据分析的基本流程
1.3.1 问题定义
问题的定义通常需要分析人员对业务有深入了解,这也是经常提到的数据思维。
示例:
- 某移动应用的新用户注册趋势如何
- 某游戏玩家用户画像是如何
- 经常购买电商网站某产品类的是哪类人群
- 如何提高企业的销售额
- 如何对用户画像,如何进行精准营销
1.3.2 收集数据
- 要明确上步问题对应的数据是什么,这些数据如何定义,如何度量。
- 考虑哪些数据是已经粗壮乃的,哪些数据需要通过对现有的数据进行加功来获得,哪些数据还没有
典型的数据获取方式:
- 企业数据库/数据库仓库。大多数公司的销售、用户数据都可以直接从企业数据库获取。例如今年最大的50件商品的数据等。通过SQL命令可以快速完成这些工作
- 外部公开数据。一些科研机构、企业、政府都会开放一些数据。
- 爬虫。利用爬虫去收集互联网上的数据是经常采用的数据方式。例如,爬取淘宝上商品信息;通过爬虫获取招聘网站某一职位的招聘信息;爬取租房网站上某城市的租房信息等。
- 实验。如果想要判断新的应用界面是否会提高用户转化率,那么可以通过实验方式来获取,就是A/B测试。针对不同的问题可以设计各种不同的实验来获取相应的数据。
1.3.3 数据处理
数据处理是指对采集到的数据进行加工整理,形成适合数据分析的央视,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。
数据处理的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。
如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不剧本任何参考价值,甚至还会误导决策。
数据处理主要包括:数据清洗、数据抽取、数据合并、数据计算等处理方法。
一般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。现实中的数据基本都是不完整、不一致的脏数据,无法直接进行数据分析。
数据预处理的方法:数据清理、数据集成、数据规约。
1.3.4 数据分析
数据分析阶段,需要了解不同方法使用的场景和问题。分析时切忌滥用和误用统计分析方法。
数据分析的结果通过表格和图形的方式来呈现。常用的数据图标包括饼图、柱状图、条形图、折线图、散点图、雷达图等。
可以对这些表进一步加工,变成所需的图形,如金字塔图、矩阵图、瀑布图、漏斗图、帕累托图等。这类图更加有效、直观。
1.3.5 结果解读于应用
数据分析的结果要以报告的形式展现,数据分析师如何把数据观点展示出来则值观重要。
1.4 硝烟中的数据分析
1.4.1 数据分析的产生
- 某移动应用激活率显著下降
- 用户购物车弃购率增加
1.4.2 验证问题
- 这实际上是一个问题吗?
- 如果是的化,这里的核心问题是什么?
1.4.3 寻找原因
- 寻找任何快速解决问题的可能性
- 询问其他团队
- 对可能原因进行假设
1.4.4 数据怎么说
- 确定并分割相关数据
- 探索数据
- 评估异常或趋势的影响
1.4.5 数据分中应该避免的典型问题
- 单方论证
- 错误因果关系
- 幸存者偏差
- 采样偏差
第2章 搭建数据科学开发环境
2.1 为什么选择Python
- 快速开发
- 代码简洁,容易理解
- 语言生态健全。web、大数据、人工智能、后端服务、嵌入式