数据分析之描述性统计

统计学包括描述性统计推论统计。

描述性统计的含义——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information."

中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。

推论统计:根据数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体。

本文主要介绍描述性统计,描述性统计又分为集中趋势离散趋势


一、集中趋势(Measures of central tendency)
能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。

1. 众数(Mode)
用于定性的数据,表示一组数据中出现频次最高的数。
优点:不受极端值影响;当数据具有明显的集中趋势时,代表性好;
缺点:缺乏唯一性。

2. 分位数(Quantile)
亦称分位点,是指将一个随机变量概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数百分位数等。

2.1 中位数(Median)
用于定量的数据,表示数值大小位于中间(奇偶总量处理不同)的值。
优点:不受极端值影响;缺点:缺乏敏感性。

n为奇数:

n为偶数:

2.2 四分位数
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距。

3. 平均数(Mean)
3.1 算术平均数:
优点:充分利用所有数据,适用性强;缺点:易受极值影响。

算术平均数

3.2 加权平均数:根据权重比例来求平均值

加权平均数

3.3 几何平均数

几何平均数

python实现:

import numpy as np
import pandas as pd
from scipy.stats import mode
data=[1,2,2,3,2,4]
a=np.mean(data)
b=np.median(data)
print('均值:%s' %a)
print('中位数:%s' %b)
#众数 法一
c=mode(data)
print('众数为{},出现了{}次'.format(c[0][0],c[1][0])) 
#众数 法二 (只适用于非负数据集)
counts = np.bincount(data) #返回一个长度为data最大值+1的数组,统计data升序排列后对应索引的频数
np.argmax(counts) #返回众数
#分位数 法一 (np.percentile)
q1=np.percentile(data,25)  #四分位
q2=np.percentile(data,95) #95%位数
#分位数 法二 (df.quantile)
df=pd.Series(data)
df.quantile(.25)

二、离散趋势(Measures of Dispersion)
1. 极差
一组数值型数据中最大值和最小值之差,max(x)-min(x),反映了数值样本的数据范围。

2. 方差和标准差
方差用于衡量数据的分散程度,常见的有总体方差和样本方差,计算方法类似。标准差为方差的平方根。

3. 平均差
是数据组中各数据值与其算术平均数离差绝对值的算术平均数。

4. 分位差
其数值越小表明数据越集中,数值越大表明数据越离散。常用的四分位差为:四分位差=(第三个四分位数-第一个四分位数)/2

5. 异众比率
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

6. 离散系数
离散系数又称变异系数,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比值。离散系数越小,数据的离散程度就越小。

python实现:

import numpy as np
data=[1,2,2,3,2,4]
print('极差:{}'.format(np.ptp(data)))
print('方差:%s' % np.var(data) )
print('标准差:%s'% np.std(data) )
#平均差
a=np.mean(data)
print(np.sum(abs(data-a))/len(data))
#四分位差
print('四分位差',np.percentile(data,75)-np.percentile(data,25))  #0.75
#离散系数
print(np.std(data)/a)

三、分布形态
1. 偏态系数(Skewness)
偏态系数又称偏差系数(deviation coefficient),偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏

偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的。

数据状态 描述 图示
mean>median>mode 正偏态、右偏态
mean<median<mode 负偏态、左偏态
mode=median=mean 对称分布

2. 峰态系数(Kurtosis)
峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标,用于衡量离群数据离群度,峰度系数越大,说明该数据集中的极端值越多。在正态分布情况下,峰度系数值是3。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。

from scipy import stats
print('偏度:',stats.skew(data))  
print('峰度:',stats.kurtosis(data))
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 10,918评论 5 8
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,810评论 -1 5
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 5,798评论 0 6
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 5,063评论 0 0
  • 数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是...
    Vicky_1ecd阅读 8,224评论 0 0

友情链接更多精彩内容