(六)基本图形绘制

R中的基本图形包括:条形图(barplot),饼状图(pie),直方图(hist),核密度图(plot(density(x)),箱线图(boxplot),散点图(plot、dotchart)。

1、条形图

1.1 简单条形图

条形图通过水平或垂直的条形展示了类别型变量的频数分布。条形图绘制通过barplot()函数,barplot(height, ...), height表示一个向量或者矩阵。

> head(Arthritis); counts <- table(Arthritis$Improved);counts
  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked

  None   Some Marked 
    42     14     28 
> opar <- par(no.readonly=TRUE)
> par(mfrow=c(2,2))
> barplot(counts, main='Fig 1',xlab='Improment', ylab='Frequency')
> barplot(counts, main='Fig 2',ylab='Improment', xlab='Frequency', horiz=T)

###当要绘制的类别型变量是一个因子或有序型因子时,可以直接使用plot()快速绘制条形图
> plot(Arthritis$Improvement, main='Fig 3',xlab='Improment', ylab='Frequency')
> plot(Arthritis$Improvement, main='Fig 4',ylab='Improment', xlab='Frequency',horiz=T)
> par(opar)
1.2 堆砌条形图和分组条形图

如果height是一个矩阵而不是一个向量,则绘图结果将是一幅堆砌条形图或分组条形图。若beside=FALSE(默认值),则矩阵中的每一列都将生成图中的一个条形,各列中的值将给出堆砌的“子条”的高度。若beside=TRUE,则矩阵中的每一列都表示一个分组,各列中的值将并列而不是堆砌。更多的参数调整可使用?barplot进行查看。

> counts <- table(Arthritis$Improved, Arthritis$Treatment)
> counts
        
         Placebo Treated
  None        29      13
  Some         7       7
  Marked       7      2
> barplot(counts, main='Stacked fig', xlab='Treatment', ylab='Frequency',col=c('red','blue','green'), legend=rownames(counts))
> barplot(counts, main='Unstacked fig', xlab='Treatment', ylab='Frequency',col=c('red','blue','green'), legend=rownames(counts), beside=T)
1.3 棘状图

棘状图对堆砌条形图进行了重缩放,这样每个条形的高度均为1,每一段的高度即
表示比例(可理解为进行了标准化)。棘状图可由vcd包中的函数spine()绘制。

> counts <- table(Arthritis$Treatment, Arthritis$Improved);counts
         
          None Some Marked
  Placebo   29    7      7
  Treated   13    7     21
> spine(counts, main='Spinogram Example')
image.png

2、饼图

饼图可以观察到各部分的比例,但是用的较少,大多认为他不及条形图来的直观。饼图使用pie()进行绘制。

> par(mfrow=c(2,2))
> slices<-c(10,12,4,16,8)
> lbs<-c('US','UK','Australia','Germany','France')
### 图1
> pie(slices,labels=lbs,main='Fig-1')
> pct<-round(slices/sum(slices)*100)
> lbs2<-paste(lbs,' ',pct,'%',sep='')
### 图2
> pie(slices,labels=lbs2,col=rainbow(length(lbs2)),main='Fig-2')
> library(plotrix)
### 图3
> pie3D(slices,labels=lbs,explode=0.1,main='Fig-3D')
> mytable<-table(state.region)
> lbs3<-paste(names(mytable),'\n',mytable,sep='')
### 图4
> pie(mytable,labels=lbs3,main='Fig-4')

3、直方图

条形图用来绘制类别型变量,而直方图则是用来绘制连续型变量,在y轴显示相应的频数。用法hist(x),x为数值向量。较为常用的参数有freqbreaksfreq=FALSE表示使用概率密度而不是频数,breaks则是用于控制直方图中方条的数量(或称分组数量)。

par(mfrow=c(2,2))
### 最简单的直方图,使用默认参数
hist(mtcars$mpg)
### 设置填充颜色,分组数量,标题等
hist(mtcars$mpg,breaks=12,col='blue',xlab='MPG',main='Hist 2')
### 使用概率密度而非频数
hist(mtcars$mpg,freq=F,col='green',xlab='MPG',main='Hist 3',breaks=12)
### 添加轴须线,并使用jitter将聚集在一起的节打散
rug(jitter(mtcars$mpg))
### 添加核密度曲线
lines(density(mtcars$mpg),col='red',lwd=2)

x<-mtcars$mpg
h<-hist(x,col='yellow',xlab='MPG',main='Hist 4',breaks=12)
xfit<-seq(min(x),max(x),length=40);yfit=dnorm(xfit,mean=mean(x),sd=sd(x));yfit<-yfit*diff(h$mids[1:2])*length(x)
lines(xfit, yfit, col='red',lwd=2)
### 添加外框
box()

在图三中我们添加了两个另外的图:轴须线(使用rug生成,并使用jitter将聚集在一起的点打散),和核密度曲线。最后一个图添加的正态曲线来自于Peter Dalgaard的建议。

4、核密度图

核密度估计是用于估计随机变量概率密度函数的一种非参数方法。核密度图可用来观察连续型变量分布。单独的核密度图绘制很简单:plot(density(x),在已有的图形中添加核密度曲线则可以使用lines(density(x))

par(mfrow=c(1,2))
d<-density(mtcars$mpg)
### 图1,简单绘图
plot(d)
### 图2 添加标题
plot(d, main='Density')
### 填充图形
polygon(d,col='red',border='blue')
### 添加轴须线
rug(jitter(mtcars$mpg),col='green')

polygon()函数根据顶点的x和y坐标(图2中由density()函数提供)绘制了多边形。 使用sm包中的sm.density.compare()函数可向图形叠加两组或更多的核密度图。使用格式为:sm.density.compare(x, factor)`,其中的x是一个数值型向量, factor是一个分组变量。请在第一次使用sm包之前先安装它。下面的例子比较了拥有4个、 6个或8个汽缸车型的每加仑汽油行驶英里数。

par(lwd=2)
library(sm)
attach(mtcars)
cyl.f <- factor(cyl, levels=c(4,6,8),labels=c('4 cyl', '6 cyl', '8 cyl'))
sm.density.compare(mpg,cyl,xlab='MPG')
title(main='MPG distribution')
colfill<-c(2:(1+length(levels(cyl.f))))
legend(locator(1),levels(cyl.f),fill=colfill)
detach(mtcars)

5、箱线图

5.1 普通箱线图

箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量的分布。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值, IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。
箱线图可以展示单个变量或分组变量,使用格式为boxplot(formula, data=dataframe,其中的formula是一个公式, dataframe代表提供数据的数据框(或列表)。一个示例公式为y ~A,这将为类别型变量A的每个值并列地生成数值型变量y的箱线图。公式y ~ A*B则将为类别型变量A和B所有水平的两两组合生成数值型变量y的箱线图。
添 加 参 数varwidth=TRUE将 使 箱 线 图 的 宽 度 与 其 样 本 大 小 的 平 方 根 成 正 比 。 参 数horizontal=TRUE可以反转坐标轴的方向。通过添加notch=TRUE,可以得到含凹槽的箱线图。若两个箱的凹槽互不重叠,则表明它们的中位数有显著差异

layout(matrix(c(1,2,3,3),2,2,byrow=TRUE),widths=c(1,2))

### 单个变量的分布范围
boxplot(mtcars$mpg, main='mpg')

### 一个分组变量,通过cyl对mpg进行分组
boxplot(mpg~cyl,mtcars,varwidth=TRUE,notch=TRUE,main='mpg~cyl',xlab='cyl',ylab='mpg')

### 两个分组变量:使用(cyl, am)组合对mpg进行分组
## 创建cyl的因子
cyl.f <- factor(mtcars$cyl, levels=c(4,6,8), labels=c('4','6','8'))
## 创建am的因子
am.f <- factor(mtcars$am, levels=c(0,1),labels=c('aotu','standard'))
boxplot(mpg~cyl.f*am.f,data=mtcars,varwidth=TRUE,col=c('green','red'),main='mpg~am*cyl',xlab='auto type', ylab='mpg')
5.2 小提琴图

小提琴图是箱线图与核密度图的结合。可以使用vioplot包中的vioplot()函数绘制它。
格式为vioplot(x1, x2, ..., names=, col=),其中x1, x2, …表示要绘制的一个或多个数值向量(将为每个向量绘制一幅小提琴图)。参数names是小提琴图中x轴标签的字符向量,而col是一个为每幅小提琴图指定颜色的向量。

library(vioplot)
attach(mtcars)
x1<-mpg[cyl==4]
x2<-mpg[cyl==6]
x3<-mpg[cyl==8]
vioplot(x1,x2,x3,names=c('4 cyl','6 cyl','8 cyl'), col='gold')
title(main='vioplot mpg~cyl',xlab='cyl',ylab='mpg')
detach(mtcars)

小提琴图基本上是核密度图以镜像方式在箱线图上的叠加。在图中,白点是中位数,黑色盒型的范围是下四分位点到上四分位点,细黑线表示须。外部形状即为核密度估计。

6、点图

6.1 简单散点图

简单散点图可以直接通过plot(x, y, ...)来绘制。

x<-seq(1,5)
y<-seq(3,7)
plot(x,y,main='scatter',pch=8,col='red')
### 拟合一条曲线
abline(lm(y~x),lty=2,lwd=2)
6.2 点图

点图提供了一种在简单水平刻度上绘制大量有标签值的方法。可以使用dotchart()函数创建点图。格式为:dotchart(x, labels=),其中的x是一个数值向量,而labels则是由每个点的标签组成的向量。通过添加参数groups来选定一个因子,用以指定x中元素的分组方式。如果这样做,则参数gcolor可以控制不同组标签的颜色, cex可控制标签的大小。
通常来说,点图在经过排序并且分组变量被不同的符号和颜色区分开的时候最有用。

layout(matrix(c(1,2,1,2),2,2,byrow=TRUE))

### 未经整理的数据
dotchart(mtcars$mpg, labels=row.names(mtcars),cex=0.7,main='mgp for car models',xlab='mpg')

### 根据cyl进行排序
x<-mtcars[order(mtcars$mpg),]
### 将cyl转换为因子
x$cyl<-factor(x$cyl)
### 添加color变量到数据框中
x$color[x$cyl==4]<-'red'
x$color[x$cyl==6]<-'blue'
x$color[x$cyl==8]<-'green'
dotchart(x$mpg, labels=row.names(x), cex=0.7, 
         groups=x$cyl,  ### 根据cyl因子来进行分组
         gcolor='black',  ### 分组标签 4,6,8的颜色
         color=x$color,   ### 点和标签的颜色  
         main='mpg for car models',
         xlab='mpg')

此外, Hmisc包也提供了一个带有许多附加功能的点图函数(恰如其分地叫做dotchart2)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容