数据分析与统计的骨干知识点集合。
1 数据分析概述
数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。
- 目的/出发点:设立目标或业务需求,明确问题
- 方法:根据不同场景选定分析方法
- 结果:目标解释或业务应用(to do),创造价值
1.1 数据分析流程
- 目的和内容:明确项目整体框架或业务问题
- 数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息
- 数据预处理:检验-清理,可比(例如标准化、得分转换等),论证
- 数据分析:方法、工具的选取
- 数据表达:图表
- 数据报告:结论、建议&解决方案
1.2 数据分析方法
- 预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数)
- 基于数理统计:方差分析、回归分析、因子分析
- 数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归)
1.3 数据分析工具
Excel-SQL、R、Python、BI、HADOOP、Spark......
2 数据趋势
2.1 计量尺度
计量尺度是刻画或比较数据的标准,分为四类:
- 定类尺度:分类,例如性别;可用 = 或 != 进行运算
- 定序尺度:有序列分类,例如职称级别(讲师、副教授、教授);可用=、!= 或 <、>进行运算
- 定距尺度:例如温度;可用=、!= 或 <、>或 + 、- 进行运算
- 定比尺度:可用于数据大小、属性、加减乘除等;可用=、!= 或 <、>或 + 、- 、*、/ 进行运算
其中,定类、定序用于刻画定性数据;定距、定比用于刻画定量数据。
2.2 数据集中趋势
- 平均数:算法平均数、加权平均数、几何算法平均数(几何平均数是n个变量值连乘积的n次方根:对比率、指数等进行平均;复利下的平均年利率;连续作业的车间求产品的平均合格率)
- 众数:频数最大的数据
- 分位数:1/4;中位数;3/4位数
2.3 数据离中趋势
- 极值:d = max - min,可粗略检查产品质量和稳定程度
- 四分位点内距:IQR = Q_3 - Q_1,反映数据中间部分的差距
- 方差variance:观察值的离均差平方和的算术平均数;刻画数据的波动程度和稳定性;区分总体方差和样本方差
- 标准差standard deviation:方差的平方根;与原始数据单位相同,较方差更易于解释
- 变异系数/离散系数cofficient of variation:标准差/均值 * 100;百分比形式;去量纲、比较多组数据波动程度
3 数据分布和展示
3.1 数据分布
数据分布用来描述变量的概率分布,即数据在各个区间分布的多少。
可用数据偏态、数据峰度对数据分布进行描述。
3.1.1 数据偏态
- 对称分布:平均数=中位数=众数
- 非对称分布时即存在偏态,分为右向偏态和左向偏态
- 右向偏态:平均数>众数,极端值在右侧,曲线向右延伸
- 左向偏态:平均数<众数,极端值在左侧,曲线向左延伸
- 偏态的描述方法:偏态系数SK(=0对称分布,>0正偏态,<0负偏态)
3.2.1 数据峰度
数据峰度用于刻画数据的尖峭程度。
- 标准峰度:正态分布对应的标准峰度
- 尖顶峰度:数据在众数周围分布较集中
- 平顶峰度:数据在众数周围分布相对分散,扁平
- 峰度描述方法:峰度系数K(=0标准峰度,>0尖顶峰度分布,<0平顶峰度分布)
3.2 数据展示
- 条形图:分组后统计结果的展示
- 扇形图:各类别占比的分布
- 折线图:表示统计数据的增长变化,主要用于展示时间序列的数据
- 直方图:用于表示数据的分布情况
- 盒式图:显示数据的离散情况,中位数、四分位数、上下边缘、异常值(四分位与边缘间为温和异常值,上下边缘以外为异常值)
- 上下边缘不是极大极小值,上边缘 = Q3 + 1.5(Q3-Q1),下边缘 = Q1 - 1.5(Q3-Q1)
- 使用箱式图判断异常值无需假设数据服从正态分布(相比3sigma方法),并且数据抗耐高
4 数理统计基础知识
4.1 随机变量及其概率描述
- 随机现象:具有偶然性,并不总出现相同结果的事件
- 随机事件:随机现象的某些基本结果组成的集合(不能确定是否发生,多次试验结果具有规律性),使用随机变量对随机事件的可能性进行描述
- 概率:预测事件发生的可能性,试验中事件的发生次数/总试验次数
- 随机变量的分布
- 离散型:有限个点或可列出,分布类型包含二项分布、泊松分布
- 连续型:区间;均匀分布、指数分布、正态分布
- 条件概率:B发生时A发生的概率=AB同时发生概率/B发生的概率
- 相互独立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽样
4.2 常见分布类型介绍
正态分布
正态分布是对称的,概率曲线最高点在均值处,标准正态分布是指均值为0,标准差为1的正态分布、
3sigma准则:质量检测、剔除异常值
z标准化:将正态分布转化为标准正态分布
卡方分布
用于卡方检验
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布
t分布
t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。
t检验、独立性检验等
F分布
用于方差分析、方差检验
4.3 大数定律&中心极限定理
大数定律
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。
中心极限定理
对于任何分布的总体,若样本容量较大,能够用正态概率分布来近似样本均值的抽样分布。
通常样本容量达到30(样本中的单位数达到30)即可满足定理的大样本条件。
5 抽样估计
5.1 抽样概念引入
抽样:使用局部估计整体
总体相关概念
- 总体:根据研究目标确定的对象全体,未必是全量用户
- 总体指标:均值、比重结构等
- 个体:总体中的每个元素,具有同质性(满足同一研究目标)、大量、差异性;个体总数称为总体容量N
样本相关概念
- 样本:随机从总体中抽取的部分个体
- 样本指标:样本均值、样本方差
- 样本容量:样本中的个体数量
抽样估计:利用样本指标估计总体值班表
要求:随机性、独立性
5.2 区间估计
相关指标
- 置信区间:精确性
- 置信系数:可靠性
- 显著性水平:alpha,表示不可靠概率
检验统计量
根据样本容量不同、估计均值或比例的不同,选取不同的检验统计量
大样本——z分布
小样本——t分布
6 假设检验
6.1 概念
通过样本数据检验对总体的假设。
基本思想:反证法,基于小概率时间不发生的准则和总体的假设,根据样本数据获得的样本统计量分布,得到抽样过程中的极端或错误现象的小概率时间,从而做出对假设的否定判断。
假设:原假设、备择假设
6.2 假设检验方法
- 建立假设:通常希望证伪的假设作为原假设,反之为备择假设
- 选择检验统计量:
- 确定拒绝域:给定显著性水平,从而确定拒绝域
- 计算检验统计量,做出判断:计算结果落在拒绝域中,则表明小概率事件发生,拒绝原假设
6.3 常见检验统计量
- Z检验:统计量满足正态分布。用于单个正态总体均值检验;两个正态总体均值之差检验,方差已知;
- t检验:统计量满足t分布。单个正态总体均值检验,方差未知;两个正态总体均值/比例检验,方差相等但未知(同一群体的两次实验);两个正态总体均值/比例检验,方差不等且未知(AB测试)
- 卡方检验:统计量服从卡方分布,样本来自正态总体,用于单个正态总体方差检验;
- F检验:统计量服从F分布,样本数据来自两个正态总体,用于两个正态总体方差检验。
Z、t检验用于均值或比例检验,卡方和F检验用于方差检验
7 方差分析
方差分析用来描述多个总体的差异性,检验多个总体均值是否相同。
通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著性影响。