第五章 数据的描述性分析
R内置的分布
- d 概率密度函数
- p 累计分布函数
- q 分位数
- r 伪随机数
** dnorm、pnorm、qnorm、pnorm分别表示正态分布的四个函数。**
分布 | R函数 | 参数及默认值 | 所属程序包 |
---|---|---|---|
贝塔Beta | _beta | shape1,shape2,ncp=0 | stats |
二项Binomial | _binom | size,prob | stats |
柯西Cauchy | _cauchy | location=0,scale=1 | stats |
卡方Chi-squares(x^2) | _chisq | df,ncp | stats |
指数Exponential | _exp | rate | stats |
F分布Fisher-Snedecor | _f | df1,df2,ncp | stats |
伽马Gamma | _gamma | shape,scale=1 | stats |
几何Geometric | _geom | prob | stats |
超几何Hypergeometric | _hyper | m,n,k | stats |
对数正态Lognormal | _lnorm | meanlog=0,sdlog=1 | stats |
逻辑斯谛Logistic | _logis | location=0,scale=1 | stats |
负二项Negative binomial | _nbinom | size,prob | stats |
多项式Multinomial | _multinom | size,prob | stats |
正态Normal | _norm | mean=0,sd=1 | stats |
泊松Poisson | _pois | lambda | stats |
学生Students t | _t | df | stats |
均匀Uniform | _unif | min=0,max=1 | stats |
威布尔Weibull | _weibull | shape,scale | stats |
威尔考克森Wilcoxon | _wilcox | m,n | stats |
帕累托Pareto | _pareto | shape,scale | actuar |
布尔Buee | _burr | shape1,shape2,rate=1(scale=1/rate) | actuar |
逆指数Inverse Exponential | _invexp | rate | actuar |
狄利克雷Dirichlet | _dirichlet | alpha | MCMCpack |
威沙特Wishart | _wish | v,S | MCMCpack |
逆威沙特Inverse Wishart | _iwish | v,S | MCMCpack |
广义极值Generalized Extreme Value | _gev | xi,mu,sigma | evir |
广义帕累托Generalized Pareto | _gpd | xi=1,mu=0,sigma=1 | evir |
多元正态Multivariate Normal | _mvnorm | mean,sigma | mvtnorm |
多元t分布MULtivariate-t | _mvt | sigma=diag(2),df=1 | mvtnorm |
集中趋势的分布
mean()
均值
weighted.mean(x,w,...)
加权均值
median()
中位数
quantile(x,probs,...)
分位数
fivenum()
计算五数
summary()
总体描述
which.max(table(x))
计算离散型变量众数
离散趋势的分析
- 极差
m <- range(x);m[2]-m[1]
max(x)-min(x)
- 四分位差
q <- fivenum(x);q[4]-q[2]
- 方差
var()
- 标准差
sd()
- 离差
mad(x,center = median(x),constant = 1.4826,na.rm = FALSE,low = FALSE,high = FALSE)
数据的分布分析
加载 timeDate包
- 偏度
skewness()
- 峰度
kurtosis()
图形分析
- 直方图
hist()
- 密度函数图
lines()
- QQ图
qqnorm()
qqline()
qqplot()
- 茎叶图
stem
- 箱线图
boxplot()
- 经验分布图
ecdf()
给出样本的经验分布
plot(ecdf(),...)
画出经验分布图
多组数据分析
- 统计分析
summary()
均值和五数
var()
协方差阵
cor()
相关系数矩阵 - 图形分析
lowess()
加权多项式回归,二维
loess()
处理多维的情况
plot(x~y,...)
散点图
lines(lowess(x,y),...)
拟合曲线
kde2d()
MASS包,估计二维数据的密度函数
contour()
密度的等高线图
plot()
或pairs()
矩阵散点图
matplot()
矩阵图
boxplot()
箱线图
stars()
星图、雷达图
折线图
outline <- function(x){
if(is.data.frame(x) == TRUE
x <- as.matrix(x)
m <- nrow(x);n <- ncol(x)
plot(c(1,n),c(min(x),max(x)),type = "n",main = ,xlab = ,ylab = )
for(i in 1:m){
lines(x[i, ],col=i)
}
}
调和曲线图
outline <- function(x){
if(is.data.frame(x) == TRUE
x <- as.matrix(x)
t <- seq(-pi,pi,pi/30)
m <- nrow(x);n <- ncol(x)
f <- array(0,c(m,length(t)))
for(i in 1:m){
f[i, ] <- x[i,1]/sqrt(2)
for(j in 2:n){
if(j%%2 == 0)
f[i, ] <- f[i, ]+x[i,j]*sin(j/2*t)
else
f[i, ] <- f[i, ]+x[i,j]*cos(j%/%2*t)
}
}
plot(c(-pi,pi),c(min(f),max(f)),type = ,main = ,xlab = ,ylab= )
for(i in 1:m) lines(t,f[i, ],col = i)
}
`