最近在年中总结,我们抽空学习一下基础知识
之前分享的文章有这样一张图
今天我们来复现哑铃图,拼接图的操作已经分享过了。
首先是棒棒糖图
棒棒糖图 (Lollipop Chart),其实是一种特殊的barplot,只是将bar转变成了line和dot。效果如下两图所示:
1. ggplot2实现
以mtcars数据集为例:
library(ggplot2)
data(mtcars)
mtcars$cyl <- factor(mtcars$cyl)
mtcars <- mtcars[order(mtcars$mpg), ]
mtcars$name <- rownames(mtcars)
mtcars$name <- factor(mtcars$name, levels = rownames(mtcars))
ggplot(mtcars, aes(x=name, y=mpg, color = cyl, label=mpg)) +
geom_point(stat='identity', size=6) +
geom_segment(aes(y = 0,
x = name,
yend = mpg,
xend = name),
color = "gray") +
geom_text(color="white", size=2) +
labs(title="Lollipop Chart") +
theme_bw() +
coord_flip()
可修改geom_segment(aes(y = 20))修改中间的基准线:
2. ggpubr实现
library(ggpubr)
ggdotchart(mtcars, x = "name", y = "mpg",
color = "cyl",
sorting = "ascending", # ggpubr中可以直接排序
add = "segments",
xlab=""
)
rotate转变为垂直方向,group实现分组,dot.size修改点的大小:
library(ggpubr)
ggdotchart(mtcars, x = "name", y = "mpg",
color = "cyl",
sorting = "ascending",
add = "segments",
xlab="",
rotate = TRUE,
group = "cyl",
dot.size = 3
)
顺便来一个python版本的棒棒糖图
使用到的是我国1949到2019年,历年的出生人口数据,数据来源国家统计局。
首先读取一下数据。
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv('data.csv')
print(df)
结果如下。
数据集很简单,每行都只有一个年份和一个值。
先绘制一个带有每年数值的条形图。
# 绘制柱状图
plt.bar(df.Year, df.value)
plt.show()
两行代码,即可得到一张条形图图表,看起来确实是有点拥挤。
下面将最后一年,即2019年的数据区分出来。
给2019年的条形着色为黑色,其他年份为浅灰色。
并且在图表中添加散点图,可在条形图的顶部绘制圆形。
# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8)) # 年份数 n = len(df) # 颜色设置 colors = ['black'] + ((n-1)*['lightgrey'])
plt.bar(df.Year, df.value, color=colors)
plt.scatter(df.Year, df.value, color=colors)
plt.show()
得到结果如下。
颜色已经修改成功,还需要调整一下条形图的宽度以及顶部圆圈的大小。
# width: 条形图宽度 s: 散点图圆圈大小
plt.bar(df.Year, df.value, color=colors, width=0.2)
plt.scatter(df.Year, df.value, color=colors, s=10)
plt.show()
结果如下。
比起先前的蓝色条形图图表,棒棒糖图表确实是好看了不少。
除了用条形图来绘制棒棒糖图表,还可以使用线条,这样整体的宽度会更加一致。
X将Year(年份)数据作为起点和终点,Y以-20和各年份数据作为起点和终点。
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv('data.csv')
print(df)
# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8)) # 年份数 n = len(df) # 颜色设置 colors = ['black'] + ((n-1)*['lightgrey']) # 使用线条 for idx, val in df.iterrows():
plt.plot([val.Year, val.Year],
[-20, val.value],
color=colors[idx])
plt.show()
得到结果如下。
可以使用参数标记在两端绘制圆,而不是只在顶部生成散点图。
然后可以通过更改y-limit参数来隐藏最底端的圆。
# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8)) # 年份数 n = len(df) # 颜色设置 colors = ['black'] + ((n-1)*['lightgrey']) # 使用线条, markersize设置标记点大小 for idx, val in df.iterrows():
plt.plot([val.Year, val.Year],
[-20, val.value],
color=colors[idx],
marker='o',
markersize=3) # 设置y轴最低值 plt.ylim(0,)
plt.show()
结果如下。
此外还可以调整lw、markersize参数,定义线条的粗细及标记的大小,甚至可以绘制两次线条以创建轮廓效果。
# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8))
color = 'b'
# 年份数
n = len(df)
# 颜色设置
colors = ['black'] + ((n-1)*['lightgrey'])
# 使用线条
for idx, val in df.iterrows():
plt.plot([val.Year, val.Year],
[-20, val.value],
color='black',
marker='o',
lw=4,
markersize=6)
plt.plot([val.Year, val.Year],
[-20, val.value],
color=colors[idx],
marker='o',
markersize=4)
# 移除上边框、右边框
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)
# 设置x、y轴范围
plt.xlim(1948, 2020)
plt.ylim(0,)
# 中文显示
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.title('中国历年出生人口数据(万)', loc='left', fontsize=16)
plt.text(2019, -220, '来源:国家统计局', ha='right')
# 2019年出生人口数(显示)
value_2019 = df[df['Year'] == 2019].value.values[0]
plt.text(2019, value_2019+80, value_2019, ha='center')
# 保存图片
plt.savefig('chart.png')
得到结果如下。
黑色不是特别好看,改个颜色看看。
# 新建画布
fig, ax = plt.subplots(1, figsize=(12, 8))
# 年份数
n = len(df)
# 颜色设置
color = 'b'
colors = ['#E74C3C'] + ((len(df)-1)*['#F5B7B1'])
# 使用线条
for idx, val in df.iterrows():
plt.plot([val.Year, val.Year],
[-20, val.value],
color=colors[idx],
marker='o',
lw=4,
markersize=6,
markerfacecolor='#E74C3C')
# 移除上边框、右边框
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)
# 设置x、y轴范围
plt.xlim(1948, 2020)
plt.ylim(0,)
# 中文显示
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.title('中国历年出生人口数据(万)', loc='left', fontsize=16)
plt.text(2019, -220, '来源:国家统计局', ha='right')
# 2019年出生人口数(显示)
value_2019 = df[df['Year'] == 2019].value.values[0]
plt.text(2019, value_2019+80, value_2019, ha='center')
# 保存图片
plt.savefig('chart.png')
得到结果如下。
其次是哑铃图
什么是哑铃图(Dumbbell Chart)
哑铃图(Dumbbell Chart)就像它的名字一样,长得像一个哑铃。当然当你有多个节点的时候,它们还有点像DNA,所以也有人把这种图形称为DNA图。
哑铃图是一种很好的可视化方式,比如你想要表征不同指标的不同组的情况你可以用多个“哑铃”表示。另外,你想要表示某一组在外界刺激后的变化情况也可以用这种方式。
我们来看两个例子。第一个例子中比较了成年人和青少年在使用视频游戏设备方面的差异。很直观的可以看到青少年比成年人频率更高,同时在不同设备的使用频率也能看到明显差异。
第二个例子,分别显示了最低价格,中间的价格和最高价格,可以看到不同项目的花费差异。
那么在生物研究中我们可以用于表示哪些数据呢?
最简单的,当然是有多个指标的时候,我们可以用于显示对照组和实验组的差异。或者是男女之间的差异等等。
当然,如果你想显示给予一些刺激,比如用药前后指标的变化,这也是一个选择。
另外,现在有很多是多组学的数据,我们会统计志愿者的年龄,或者展示某些生理指标的范围等,所以我们也可以考虑第二个例子,用哑铃图进行展示,这样可能会比图标看起来更加直观一些,也显得更加美观。
怎么做哑铃图
使用ggalt包或者plotly包就可以实现哑铃图的制作。我们选择使用ggalt包(该包基于ggplot2包)。
这次使用一个不同学校男女年收入(单位:千美元)的数据。
具体如下:
dat <- read.csv("https://raw.githubusercontent.com/plotly/datasets/master/school_earnings.csv")
head(dat)
School Women Men Gap
1 MIT 94 152 58
2 Stanford 96 151 55
3 Harvard 112 165 53
4 U.Penn 92 141 49
5 Princeton 90 137 47
6 Chicago 78 118 40
一共统计了21所美国高校,包括哈佛、斯坦福、MIT等。
2)如何作图
library(ggplot2)
library(ggalt)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
geom_dumbbell(colour_x = "#FFB6C1",colour_xend = "#4169E1",size_x = 2,size_xend = 2,size=0.5,color="gray")+
theme_light()+
theme(panel.grid.minor.x =element_blank(),
)+
xlab("Annual Salary (in thousands)")
当然还可以,进一步修改,比如:添加一个外环
library(ggplot2)
library(ggalt)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
geom_dumbbell(colour_x = "#FFB6C1",colour_xend = "#4169E1",size_x = 2,size_xend = 2,size=0.5,color="gray")+
geom_point(aes(x=Women,y=School,size=Women),alpha=0.5,color="#FFB6C1")+
geom_point(aes(x=Men,y=School,size=Men),alpha=0.5,color="#4169E1")+
theme_light()+
theme(panel.grid.minor.x =element_blank(),
legend.position = c("none")
)+
xlab("Annual Salary (in thousands)")
又比如再加入Gap的人数:
library(ggplot2)
library(ggalt)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
geom_dumbbell(colour_x = "#FFB6C1",colour_xend = "#4169E1",size_x = 2,size_xend = 2,size=0.5,color="gray")+
geom_point(aes(x=Women,y=School,size=Women),alpha=0.5,color="#FFB6C1")+
geom_point(aes(x=Men,y=School,size=Men),alpha=0.5,color="#4169E1")+
geom_point(aes(x=Gap,y=School),color="#9ACD32",shape=2)+
theme_light()+
theme(panel.grid.minor.x =element_blank(),
legend.position = c("none")
)+
xlab("Annual Salary (in thousands)")
也可以换一个风格:
library(ggplot2)
library(ggalt)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
geom_dumbbell(colour_x = "#8B8B7A",colour_xend = "#9ACD32",size_x = 2,size_xend = 2,size=0.5,color="gray",dot_guide = T)+
theme_light()+
theme(panel.grid.minor.x =element_blank(),
panel.grid = element_blank(),
legend.position = c("none")
)+
xlab("Annual Salary (in thousands)")
还可以加入平均值:
library(ggplot2)
library(ggalt)
dat$mean<-apply(dat[,2:3],1,mean)
ggplot(aes(x=Women,xend=Men,y=School),data=dat)+
geom_dumbbell(colour_x = "#4682B4",colour_xend = "#CD2626",size_x = 3,size_xend = 3,size=0.5,color="gray",dot_guide = T)+
geom_point(aes(x=mean,y=School),color="#EE7621",size=3)+
theme_light()+
theme(panel.grid.minor.x =element_blank(),
panel.grid = element_blank(),
legend.position = c("none")
)+
xlab("Annual Salary (in thousands)")
基础知识,多多学习