统计学习笔记——统计描述

在对某一统计数据进行深入分析之前,首先要对数据的多项数据特征进行描述,这些统计特征包括这养几个方面

集中趋势
离散趋势
偏度
峰度

使用R对这四个方面的特征进行探索,所用的数据集为R自带数据iris数据集

1. 集中趋势的描述

集中趋势的描述包括,均数、中位数、百分位数

data("iris")
head(iris)
apply(iris[,1:4],2,mean)
apply(iris[,1:4],2, median)

展示结果

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

> apply(iris[,1:4],2,mean)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
    5.843333     3.057333     3.758000     1.199333 

> apply(iris[,1:4],2, median)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
        5.80         3.00         4.35         1.30 

2. 离散趋势

描述离散趋势的统计指标有,方差,标准差,中位数绝对偏差,变异系数,四分位数,极差

# 离散程度
# 主要方差、标准差、中位数绝对偏差、变异系数、四分位数、极差
var(iris$Sepal.Length)  #方差
sd(iris$Sepal.Length)  #标准差
mad(iris$Sepal.Length)   #中位数绝对偏差
range(iris$Sepal.Length)  # 极差
quantile(iris$Sepal.Length)  #四分位数
apply(iris[,1:4],2,quantile) 
apply(iris[,1:4],2,sd) / apply(iris[1:4],2,mean)  #变异系数

结果展示如下

> var(iris$Sepal.Length)
[1] 0.6856935
> sd(iris$Sepal.Length)
[1] 0.8280661
> mad(iris$Sepal.Length)
[1] 1.03782
> range(iris$Sepal.Length)
[1] 4.3 7.9
> quantile(iris$Sepal.Length)
  0%  25%  50%  75% 100% 
 4.3  5.1  5.8  6.4  7.9 
> apply(iris[,1:4],2,quantile)
     Sepal.Length Sepal.Width Petal.Length Petal.Width
0%            4.3         2.0         1.00         0.1
25%           5.1         2.8         1.60         0.3
50%           5.8         3.0         4.35         1.3
75%           6.4         3.3         5.10         1.8
100%          7.9         4.4         6.90         2.5
> apply(iris[,1:4],2,sd) / apply(iris[1:4],2,mean)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
   0.1417113    0.1425642    0.4697441    0.6355511 

3. 偏度

偏度也称为偏态系数,用于衡量分布不对称程度或偏斜指标.
正态分布是一种无偏分布,其偏度等于0。相对于正态分布,右偏分布也称正偏分布,其偏度大于0;左偏分布,其偏度小于0 。

library(moments)
apply(iris[,1:4],2,skewness)

结果展示如下

> apply(iris[,1:4],2,skewness)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
   0.3117531    0.3157671   -0.2721277   -0.1019342 

当然是否正态分布,还需要进行假设检验,见之前所写的统计方法选择

4. 峰度

峰度又称为峰度系数,用于衡量数据尾部分散度的指标,直观来看,峰度反应了峰部的尖度。当数据为正态分布,峰度近似等于3。与正态分布相比较,峰度大于3,数据有较多远离平均值的极端数据,即数据有平峰厚尾性。反之,峰度小于3,数据分布具有尖峰细尾性。

library(moments)

apply(iris[,1:4], 2, FUN = kurtosis)

结果如下

> apply(iris[,1:4], 2, FUN = kurtosis)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
    2.426432     3.180976     1.604464     1.663933 

结果解释同上

5. 可视化偏度和峰度

同样使用上面的数据

library(ggplot2)
library(tidyr)
irislong <- gather(iris[,1:4], key = 'varname', value = 'value')

# 可视化数据分布
ggplot(irislong,aes(colours = varname, fill = varname, linetype = varname, alpha = 0.5)) +
  theme_bw()+
  geom_density(aes(value),bw = 0.5, alpha = 0.4)
峰度偏度可视化

从图中可以看出和计算结果呼应

6. 综合分析

其实针对上面提及到的四个方面的内容,已经有package将这些都做好

使用summary对数据进行分析

> summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500          

可以看出,summary把每一列的数据的四分位数和平均数,中位数都进行了计算

使用Hmisc package进行分析

> describe(iris$Sepal.Length)
iris$Sepal.Length 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
     150        0       35    0.998    5.843   0.9462    4.600    4.800    5.100    5.800 
     .75      .90      .95 
   6.400    6.900    7.255 

lowest : 4.3 4.4 4.5 4.6 4.7, highest: 7.3 7.4 7.6 7.7 7.9

可以看出,包括了观测数量,缺失值,基本描述参数,最大/最小的5个数据。当然也可以对几组数据同时使用

> describe(iris[,1:4])
iris[, 1:4] 

 4  Variables      150  Observations
------------------------------------------------------------------------------------------------
Sepal.Length 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
     150        0       35    0.998    5.843   0.9462    4.600    4.800    5.100    5.800 
     .75      .90      .95 
   6.400    6.900    7.255 

lowest : 4.3 4.4 4.5 4.6 4.7, highest: 7.3 7.4 7.6 7.7 7.9
------------------------------------------------------------------------------------------------
Sepal.Width 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
     150        0       23    0.992    3.057   0.4872    2.345    2.500    2.800    3.000 
     .75      .90      .95 
   3.300    3.610    3.800 

lowest : 2.0 2.2 2.3 2.4 2.5, highest: 3.9 4.0 4.1 4.2 4.4
------------------------------------------------------------------------------------------------
Petal.Length 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
     150        0       43    0.998    3.758    1.979     1.30     1.40     1.60     4.35 
     .75      .90      .95 
    5.10     5.80     6.10 

lowest : 1.0 1.1 1.2 1.3 1.4, highest: 6.3 6.4 6.6 6.7 6.9
------------------------------------------------------------------------------------------------
Petal.Width 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50 
     150        0       22     0.99    1.199   0.8676      0.2      0.2      0.3      1.3 
     .75      .90      .95 
     1.8      2.2      2.3 

lowest : 0.1 0.2 0.3 0.4 0.5, highest: 2.1 2.2 2.3 2.4 2.5
------------------------------------------------------------------------------------------------

psych package进行分析

这个包和上面的类似,同样使用的是describe这个函数。

> psych::describe(iris[,1:4])
             vars   n mean   sd median trimmed  mad min max range  skew kurtosis   se
Sepal.Length    1 150 5.84 0.83   5.80    5.81 1.04 4.3 7.9   3.6  0.31    -0.61 0.07
Sepal.Width     2 150 3.06 0.44   3.00    3.04 0.44 2.0 4.4   2.4  0.31     0.14 0.04
Petal.Length    3 150 3.76 1.77   4.35    3.76 1.85 1.0 6.9   5.9 -0.27    -1.42 0.14
Petal.Width     4 150 1.20 0.76   1.30    1.18 1.04 0.1 2.5   2.4 -0.10    -1.36 0.06

使用pastecs的stat.desc函数进行分析

这个包和上面的类似,使用的是stat.desc这个函数,但是这个包可以对峰度、偏度、正态分布进行检验。

> pastecs::stat.desc(iris[,1:4],basic = T,desc = T,norm = T,p = T)
             Sepal.Length  Sepal.Width  Petal.Length   Petal.Width
nbr.val      150.00000000 150.00000000  1.500000e+02  1.500000e+02
nbr.null       0.00000000   0.00000000  0.000000e+00  0.000000e+00
nbr.na         0.00000000   0.00000000  0.000000e+00  0.000000e+00
min            4.30000000   2.00000000  1.000000e+00  1.000000e-01
max            7.90000000   4.40000000  6.900000e+00  2.500000e+00
range          3.60000000   2.40000000  5.900000e+00  2.400000e+00
sum          876.50000000 458.60000000  5.637000e+02  1.799000e+02
median         5.80000000   3.00000000  4.350000e+00  1.300000e+00
mean           5.84333333   3.05733333  3.758000e+00  1.199333e+00
SE.mean        0.06761132   0.03558833  1.441360e-01  6.223645e-02
CI.mean.TRUE          Inf          Inf           Inf           Inf
var            0.68569351   0.18997942  3.116278e+00  5.810063e-01
std.dev        0.82806613   0.43586628  1.765298e+00  7.622377e-01
coef.var       0.14171126   0.14256420  4.697441e-01  6.355511e-01
skewness       0.30864073   0.31261470 -2.694109e-01 -1.009166e-01
skew.2SE       0.77924478   0.78927812 -6.801988e-01 -2.547904e-01
kurtosis      -0.60581253   0.13870468 -1.416857e+00 -1.358179e+00
kurt.2SE      -0.76961200   0.17620762 -1.799947e+00 -1.725403e+00
normtest.W     0.97609027   0.98491787  8.762681e-01  9.018349e-01
normtest.p     0.01018116   0.10115427  7.412263e-10  1.680465e-08

包括了可信区间这些数据,相当全面了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容