(R)R语言 统计分析 画图+美化

关键字:R语言, 统计分析, 概率密度图,联合分布图,箱线图, 小提琴图
R语言画的图,当在论文或PPT上呈现时,可能会有字体太小,或者线条太细以及配色等问题,本文把相关代码写在一起,可直接使用这些代码片,画出好看的图片,直接就调整配色,字体等。
使用数据:
UCI数据库Heart Disease数据集
http://archive.ics.uci.edu/ml/datasets/Heart+Disease
本文使用的是这个数据集的一个子集(共14列)
https://github.com/xjcjiacheng/data-analysis/tree/master/heart%20disease%20UCI
所有代码和数据都在这里:
https://github.com/wushangbin/tripping/tree/master/R_Plot

1 相关性计算

可以计算多个特征与label之间的 残差统计量(Deviance Residuals),回归系数(Estimate),标准差,Z统计量和P值等。

data  = read.csv("./heart.csv")
# print(names(data)) 可以查看这个数据有哪些列
# data是读取的dataframe,target,age,sex,cp,chol,trestbps都是数据中的列名。
model <- glm(target~age+sex+cp+chol+trestbps, data = data, family='binomial')
summary(model)

结果如下:

Call:
glm(formula = target ~ age + sex + cp + chol + trestbps, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5320  -0.7584   0.2806   0.7685   2.2828  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  7.579089   1.536048   4.934 8.05e-07 ***
age         -0.059743   0.017652  -3.384 0.000713 ***
sex         -1.916315   0.351638  -5.450 5.05e-08 ***
cp           1.065319   0.151163   7.048 1.82e-12 ***
chol        -0.003965   0.002819  -1.407 0.159552    
trestbps    -0.020903   0.008557  -2.443 0.014579 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 417.64  on 302  degrees of freedom
Residual deviance: 302.13  on 297  degrees of freedom
AIC: 314.13

使用caret里的train可以输出误差

library(caret)
model <- train(target~age+sex+cp+chol+trestbps, data=data, method='glm', family='binomial')
print(model) # 注意这里是print,如果用summary,输出和上面是一样的

输出结果:

Generalized Linear Model 

303 samples
  5 predictor

No pre-processing
Resampling: Bootstrapped (25 reps) 
Summary of sample sizes: 303, 303, 303, 303, 303, 303, ... 
Resampling results:

  RMSE       Rsquared   MAE     
  0.4216974  0.2939183  0.339408

2 单变量分布可视化

2.1 概率密度分布图

适用于连续型变量。我这里一键调颜色,调字体。 画trestbps的概率密度分布图,并对sex进行区分。

library(ggplot2)
data$sex <- as.factor(data$sex) # 先把sex转化成factor,不然R会处理为整型的0,1
ggplot(data, aes(x = trestbps)) + geom_line(size=3, colour = "cadetblue3", stat = "density") +
   geom_rug(aes(colour = sex), sides = "b") +
  theme(axis.title.x =element_text(size=20), axis.title.y=element_text(size=20))
Figure 1. 概率密度分布图.png

2.2 直方图和条形图

要注意区分直方图(也即柱状图,hist, histogram)和条形图(barplot, bar chat)。虽然这两个图的形状很像,但是直方图反应的是一列数据的分布,而条形图反应的是每个元素的大小。我们以2020年第七次中国人口普查的数据为例,画一下直方图和条形图。

population = read.csv("./China_Population.csv")
hist(population$population2020)
barplot(population$population2020, names.arg = population$ChineseName, las=2)
Figure 2. 直方图.png

Figure 3. 条形图.png

可以看到,直方图是只用选择一列数据,画出这一列数据的分布即可,横轴是人口数量,而纵轴是Frequency;但条形图是要多选一列数据作为label,可直观地看出每个数据的大小。

3 小提琴图与箱线图

把这两个图放到一起,因为它们都反应的是离散型变量和连续型变量之间的关系。我还是拿刚刚的两个变量,sex和trestbps举例子。

3.1 箱线图

library(ggplot2)
data$sex <- as.factor(data$sex) # 先把sex转化成factor,不然R会处理为整型的0,1
ggplot(data, aes(sex, trestbps)) +
  geom_boxplot(aes(fill = sex)) +
  stat_summary(fun = "mean", fill = "white", size = 2, geom = "point", shape = 23) +
  theme(axis.title.x =element_text(size=20), axis.title.y=element_text(size=20))
Figure 2. 箱线图.png

3.2 小提琴图

library(ggplot2)
data$sex <- as.factor(data$sex) # 先把sex转化成factor,不然R会处理为整型的0,1
ggplot(data, aes(sex, trestbps)) +
  geom_violin(aes(fill = sex), show.legend = FALSE) + geom_jitter(width = 0.1) +
  theme(axis.title.x =element_text(size=20), axis.title.y=element_text(size=20))
Figure 3. 小提琴图.png

4 联合分布

4.1 二维直方图

这次画的是chol 和 trestbps两个变量

library(ggplot2)
ggplot(data, aes(chol, trestbps)) +
  geom_bin2d() +
  theme(axis.title.x =element_text(size=20), axis.title.y=element_text(size=20))
Figure 4. 二维直方图.png

4.2 联合概率密度分布图

这次选的两个连续型变量分别是chol和trestbps,在sex上进行区分

library(ggpubr)
data$sex <- as.factor(data$sex) # 先把sex转化成factor,不然R会处理为整型的0,1
ggscatterhist(
  data,  x ='chol', y = 'trestbps',
  shape=21,color ="black",fill= "sex", size =3, alpha = 0.8,
  palette = c("#00AFBB", "#E7B800", "#FC4E07"),
  margin.plot =  "density",
  margin.params = list(fill = "sex", color = "black", size = 0.2),
  legend = c(0.9,0.15),
  ggtheme = theme_minimal()) +
    theme(axis.title.x =element_text(size=20), axis.title.y=element_text(size=20))
Figure 5. 联合概率密度分布图.png

4.3 散点图

这一次我们给散点图加点东西,比如,画散点图,并给散点图加标签,然后散点的颜色和大小也赋予意义,不同散点的颜色和大小是不一样的:

ggplot(population, aes(x=popChange, y=percentChange)) +
    geom_point(aes(size=population2020, color=population2020)) +  # 这里散点颜色和大小是同一个含义,可根据需要调整
    geom_text(aes(label=ChineseName), size=4, hjust=1, vjust=-1)  # 给散点加label

但是这样加标签的话你跑一下就知道了,每个散点都有标签,看起来很乱,所以我们接下来,只给满足要求的散点加标签,并且,在右边的图例中把最小值,最大值和中位数标出来:

minPerChange <- 10
minPopChange <- 1000000
population$keyProvince <- population$popChange>minPopChange & population$percentChange > minPerChange
minLabel <- format(min(population$population2020), big.mark = ",", trim = TRUE)
maxLabel <- format(max(population$population2020), big.mark = ",", trim = TRUE)
medianLabel <- format(median(population$population2020), big.mark = ",", trim = TRUE)
g <- ggplot(population, aes(x=popChange, y=percentChange)) +
  geom_point(aes(size=population2020, color=population2020, shape=keyProvince)) +
  geom_text(data = population[population$popChange > minPopChange & population$percentChange > minPerChange,],
              aes(label=ChineseName, hjust=1, vjust=-1)) +
  # 加图例,展示出最小值,最大值和中位数
  scale_color_continuous(name="Pop", breaks = with(population, c(
    min(population2020), median(population2020), max(population2020))),
  labels = c(minLabel, medianLabel, maxLabel), low = "white", high = "black")
  g
散点图.png

4.4 回归线

画完散点图之后,画上回归线并加置信区间:

if (TRUE) {
  ggplot(population, aes(x=population2010, y=popChange)) +
    geom_point() +
    stat_smooth(method="lm", col="red")
}
Lining_up.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容