文章中的哑铃图复现(基础知识)

最近在年中总结,我们抽空学习一下基础知识

之前分享的文章有这样一张图

图片.png

今天我们来复现哑铃图,拼接图的操作已经分享过了。

首先是棒棒糖图

棒棒糖图 (Lollipop Chart),其实是一种特殊的barplot,只是将bar转变成了line和dot。效果如下两图所示:

图片.png
图片.png
1. ggplot2实现

以mtcars数据集为例:

library(ggplot2)
data(mtcars)
mtcars$cyl <- factor(mtcars$cyl)
mtcars <- mtcars[order(mtcars$mpg), ]
mtcars$name <-  rownames(mtcars)
mtcars$name <- factor(mtcars$name, levels = rownames(mtcars))

ggplot(mtcars, aes(x=name, y=mpg, color = cyl, label=mpg)) + 
  geom_point(stat='identity', size=6)  +
  geom_segment(aes(y = 0, 
                   x = name, 
                   yend = mpg, 
                   xend = name), 
               color = "gray") +
  geom_text(color="white", size=2) +
  labs(title="Lollipop Chart") + 
  theme_bw() + 
  coord_flip() 
图片.png

可修改geom_segment(aes(y = 20))修改中间的基准线:

图片.png
2. ggpubr实现
library(ggpubr)

ggdotchart(mtcars, x = "name", y = "mpg",
           color = "cyl",                               
           sorting = "ascending",     # ggpubr中可以直接排序                   
           add = "segments",                             
           xlab=""
)
图片.png
rotate转变为垂直方向,group实现分组,dot.size修改点的大小:
library(ggpubr)

ggdotchart(mtcars, x = "name", y = "mpg",
           color = "cyl",                               
           sorting = "ascending",                        
           add = "segments",                             
           xlab="", 
           rotate = TRUE,
           group = "cyl", 
           dot.size = 3 

)
图片.png

顺便来一个python版本的棒棒糖图

使用到的是我国1949到2019年,历年的出生人口数据,数据来源国家统计局。
首先读取一下数据。
import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('data.csv')
print(df)

结果如下。

图片

数据集很简单,每行都只有一个年份和一个值。

先绘制一个带有每年数值的条形图。


# 绘制柱状图
plt.bar(df.Year, df.value)
plt.show()

两行代码,即可得到一张条形图图表,看起来确实是有点拥挤。

图片

下面将最后一年,即2019年的数据区分出来。

给2019年的条形着色为黑色,其他年份为浅灰色。

并且在图表中添加散点图,可在条形图的顶部绘制圆形。


# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8)) # 年份数 n = len(df) # 颜色设置 colors = ['black'] + ((n-1)*['lightgrey'])
plt.bar(df.Year, df.value, color=colors)
plt.scatter(df.Year, df.value, color=colors)
plt.show()  

得到结果如下。

图片
颜色已经修改成功,还需要调整一下条形图的宽度以及顶部圆圈的大小。

# width: 条形图宽度  s: 散点图圆圈大小
plt.bar(df.Year, df.value, color=colors, width=0.2)
plt.scatter(df.Year, df.value, color=colors, s=10)
plt.show()

结果如下。

图片
比起先前的蓝色条形图图表,棒棒糖图表确实是好看了不少。
除了用条形图来绘制棒棒糖图表,还可以使用线条,这样整体的宽度会更加一致。
X将Year(年份)数据作为起点和终点,Y以-20和各年份数据作为起点和终点。

import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('data.csv')
print(df)

# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8)) # 年份数 n = len(df) # 颜色设置 colors = ['black'] + ((n-1)*['lightgrey']) # 使用线条  for idx, val in df.iterrows():
    plt.plot([val.Year, val.Year],
             [-20, val.value],
             color=colors[idx])
plt.show()  

得到结果如下。

图片
可以使用参数标记在两端绘制圆,而不是只在顶部生成散点图。
然后可以通过更改y-limit参数来隐藏最底端的圆。

# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8)) # 年份数 n = len(df) # 颜色设置 colors = ['black'] + ((n-1)*['lightgrey']) # 使用线条, markersize设置标记点大小  for idx, val in df.iterrows():
    plt.plot([val.Year, val.Year],
             [-20, val.value],
             color=colors[idx],
             marker='o',
             markersize=3) # 设置y轴最低值 plt.ylim(0,)
plt.show()  

结果如下。

图片

此外还可以调整lw、markersize参数,定义线条的粗细及标记的大小,甚至可以绘制两次线条以创建轮廓效果。


# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8))
color = 'b'

# 年份数
n = len(df)
# 颜色设置
colors = ['black'] + ((n-1)*['lightgrey'])
# 使用线条
for idx, val in df.iterrows():
    plt.plot([val.Year, val.Year],
             [-20, val.value],
             color='black',
             marker='o',
             lw=4,
             markersize=6)
    plt.plot([val.Year, val.Year],
             [-20, val.value],
             color=colors[idx],
             marker='o',
             markersize=4)

# 移除上边框、右边框
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)

# 设置x、y轴范围
plt.xlim(1948, 2020)
plt.ylim(0,)

# 中文显示
plt.rcParams['font.sans-serif'] = ['Songti SC']

plt.title('中国历年出生人口数据(万)', loc='left', fontsize=16)
plt.text(2019, -220, '来源:国家统计局', ha='right')

# 2019年出生人口数(显示)
value_2019 = df[df['Year'] == 2019].value.values[0]
plt.text(2019, value_2019+80, value_2019, ha='center')

# 保存图片
plt.savefig('chart.png')

得到结果如下。

图片
黑色不是特别好看,改个颜色看看。

# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8))

# 年份数
n = len(df)
# 颜色设置
color = 'b'
colors = ['#E74C3C'] + ((len(df)-1)*['#F5B7B1'])
# 使用线条
for idx, val in df.iterrows():
    plt.plot([val.Year, val.Year],
             [-20, val.value],
             color=colors[idx],
             marker='o',
             lw=4,
             markersize=6,
             markerfacecolor='#E74C3C')

# 移除上边框、右边框
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)

# 设置x、y轴范围
plt.xlim(1948, 2020)
plt.ylim(0,)

# 中文显示
plt.rcParams['font.sans-serif'] = ['Songti SC']

plt.title('中国历年出生人口数据(万)', loc='left', fontsize=16)
plt.text(2019, -220, '来源:国家统计局', ha='right')

# 2019年出生人口数(显示)
value_2019 = df[df['Year'] == 2019].value.values[0]
plt.text(2019, value_2019+80, value_2019, ha='center')

# 保存图片
plt.savefig('chart.png')

得到结果如下。

图片

其次是哑铃图

什么是哑铃图(Dumbbell Chart)

哑铃图(Dumbbell Chart)就像它的名字一样,长得像一个哑铃。当然当你有多个节点的时候,它们还有点像DNA,所以也有人把这种图形称为DNA图。
哑铃图是一种很好的可视化方式,比如你想要表征不同指标的不同组的情况你可以用多个“哑铃”表示。另外,你想要表示某一组在外界刺激后的变化情况也可以用这种方式。

我们来看两个例子。第一个例子中比较了成年人和青少年在使用视频游戏设备方面的差异。很直观的可以看到青少年比成年人频率更高,同时在不同设备的使用频率也能看到明显差异。
第二个例子,分别显示了最低价格,中间的价格和最高价格,可以看到不同项目的花费差异。

image
image

那么在生物研究中我们可以用于表示哪些数据呢?
最简单的,当然是有多个指标的时候,我们可以用于显示对照组和实验组的差异。或者是男女之间的差异等等。
当然,如果你想显示给予一些刺激,比如用药前后指标的变化,这也是一个选择。
另外,现在有很多是多组学的数据,我们会统计志愿者的年龄,或者展示某些生理指标的范围等,所以我们也可以考虑第二个例子,用哑铃图进行展示,这样可能会比图标看起来更加直观一些,也显得更加美观。

怎么做哑铃图

使用ggalt包或者plotly包就可以实现哑铃图的制作。我们选择使用ggalt包(该包基于ggplot2包)。

这次使用一个不同学校男女年收入(单位:千美元)的数据。

具体如下:

dat <- read.csv("https://raw.githubusercontent.com/plotly/datasets/master/school_earnings.csv")
head(dat)
     School Women Men Gap
1       MIT    94 152  58
2  Stanford    96 151  55
3   Harvard   112 165  53
4    U.Penn    92 141  49
5 Princeton    90 137  47
6   Chicago    78 118  40

一共统计了21所美国高校,包括哈佛、斯坦福、MIT等。

2)如何作图

library(ggplot2)
library(ggalt)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
  geom_dumbbell(colour_x = "#FFB6C1",colour_xend = "#4169E1",size_x = 2,size_xend = 2,size=0.5,color="gray")+
  theme_light()+
  theme(panel.grid.minor.x =element_blank(),
        )+
  xlab("Annual Salary (in thousands)")
图片.png

当然还可以,进一步修改,比如:添加一个外环

library(ggplot2)
library(ggalt)

ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
  geom_dumbbell(colour_x = "#FFB6C1",colour_xend = "#4169E1",size_x = 2,size_xend = 2,size=0.5,color="gray")+
  geom_point(aes(x=Women,y=School,size=Women),alpha=0.5,color="#FFB6C1")+
  geom_point(aes(x=Men,y=School,size=Men),alpha=0.5,color="#4169E1")+
  theme_light()+
  theme(panel.grid.minor.x =element_blank(),
        legend.position = c("none")
        )+
  xlab("Annual Salary (in thousands)")
图片.png

又比如再加入Gap的人数:

library(ggplot2)
library(ggalt)

ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
  geom_dumbbell(colour_x = "#FFB6C1",colour_xend = "#4169E1",size_x = 2,size_xend = 2,size=0.5,color="gray")+
  geom_point(aes(x=Women,y=School,size=Women),alpha=0.5,color="#FFB6C1")+
  geom_point(aes(x=Men,y=School,size=Men),alpha=0.5,color="#4169E1")+
  geom_point(aes(x=Gap,y=School),color="#9ACD32",shape=2)+
  theme_light()+
  theme(panel.grid.minor.x =element_blank(),
        legend.position = c("none")
        )+
  xlab("Annual Salary (in thousands)")
图片.png

也可以换一个风格:

library(ggplot2)
library(ggalt)

ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
  geom_dumbbell(colour_x = "#8B8B7A",colour_xend = "#9ACD32",size_x = 2,size_xend = 2,size=0.5,color="gray",dot_guide = T)+
  theme_light()+
  theme(panel.grid.minor.x =element_blank(),
        panel.grid = element_blank(),
        legend.position = c("none")
        )+
  xlab("Annual Salary (in thousands)")
图片.png

还可以加入平均值:

library(ggplot2)
library(ggalt)

dat$mean<-apply(dat[,2:3],1,mean)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
  geom_dumbbell(colour_x = "#4682B4",colour_xend = "#CD2626",size_x = 3,size_xend = 3,size=0.5,color="gray",dot_guide = T)+
  geom_point(aes(x=mean,y=School),color="#EE7621",size=3)+
  theme_light()+
  theme(panel.grid.minor.x =element_blank(),
        panel.grid = element_blank(),
        legend.position = c("none")
        )+
  xlab("Annual Salary (in thousands)")
图片.png

基础知识,多多学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容