“ 在展示数据集合的时候,随着集合数目的增多,使用Venn图进行数据集合可视化时,图形会变得很复杂,很难一眼获取关键信息。今天,给大家介绍一个基于R语言的的数据集合可视化包——UpSetR。下面就给大家展示如何使用UpSetR包一步步实现数据集合的展示!”
01 入门篇
首先,给大家介绍如何安装、导入UpSetR包,并基于这个包进行最简单的数据集合展示:
1、UpSetR包的安装与导入(R语言环境的安装与配置大家自行问度娘哈)
install.packages("UpSetR")#安装
#当然,也可以通过Github进行安装哈
# install.packages("devtools")
# devtools::install_github("hms-dbmi/UpSetR")
library(UpSetR)#导入
2、设置工作目录
#设置工作目录
setwd("D:\\桌面\\wzs\\R\\UpSetR)
#查看工作目录是否设置成功
getwd()
3、准备数据(这里使用随机编写的数据哈,大家也可以导入自己的数据)
#导入数据
df <- list(
A = c(1, 2, 3, 4, 5, 6, 8, 12, 13),
B = c(1, 2, 4, 5, 7, 10),
C = c(1, 5, 6, 7, 8, 9, 10, 11, 13),
D = c(1, 2, 5, 8, 10, 13))
# 查看数据
head(df)
4、使用upset()函数绘图:
1)绘图前,我们先看一下upset()函数包含的参数有哪些?
??UpSetR #查看UpSetR包的绘图函数及参数
upset(data, nsets = 5, nintersects = 40, sets = NULL,
keep.order = F, set.metadata = NULL, intersections = NULL,
matrix.color = "gray23", main.bar.color = "gray23",
mainbar.y.label = "Intersection Size", mainbar.y.max = NULL,
sets.bar.color = "gray23", sets.x.label = "Set Size",
point.size = 2.2, line.size = 0.7, mb.ratio = c(0.7, 0.3),
expression = NULL, att.pos = NULL, att.color = main.bar.color,
order.by = c("freq", "degree"), decreasing = c(T, F),
show.numbers = "yes", number.angles = 0, group.by = "degree",
cutoff = NULL, queries = NULL, query.legend = "none",
shade.color = "gray88", shade.alpha = 0.25, matrix.dot.alpha = 0.5,
empty.intersections = NULL, color.pal = 1, boxplot.summary = NULL,
attribute.plots = NULL, scale.intersections = "identity",
scale.sets = "identity", text.scale = 1, set_size.angles = 0,
set_size.show = FALSE, set_size.numbers_size = NULL,
set_size.scale_max = NULL)
我们可以看到,这个函数包含的参数很多,其实绘图我们用到参数就几个,想要进一步了解大家可自行去官网查看。
2) 绘图
upset(fromList(df), order.by = "freq")
#fromList()是UpSetR包提供的数据格式化转换函数,主要接受List数据
#order.by是矩阵点图中交集的排序方式
02 进阶篇
上面给大家展示的是如何使用UpSetR绘制最基本的图形,下面给大家介绍一下如何进一步通过调整参数得到我们想要的个性化图形(由于作图需求,上面的简单数据不适用于给大家进行进一步地展示,所以我们换用这个包自带的示例数据):
df<- read.csv(system.file("extdata", "movies.csv", package = "UpSetR"), header = T, sep = ";")
upset(df, order.by = "freq")
下面就给大家展示如何通过控制参数得到一张漂亮的个性化图:
upset(df,
sets = c("Action", "Comedy", "Mystery", "Thriller", "War"),#指定展示的集合
nset = 5, #集合范围的限制
nintersects = 12, #需要绘制的交集数目
order.by = c('degree','freq'), decreasing = c(F, T),#排序
mb.ratio = c(0.7, 0.3),#柱状图与矩阵点图之间的比例大小
number.angles = 0,#柱子上方数字倾斜角度
point.size = 1.8,#矩阵中圆圈的大小
line.size = 1, #矩阵点图中点和线的大小
shade.color = "red",#矩阵点图阴影的颜色
mainbar.y.label = "Intersection size", #条形图的轴标签
sets.x.label = "Set Size", #柱状图的轴标签
main.bar.color = "#73BAD6", #柱状图柱子颜色
sets.bar.color = "#3b7960",#条形图条形的颜色
matrix.color = "#033250",#矩阵中交集点的颜色
text.scale = c(1.3, 1.3, 1, 1, 1.2, 1),#文本大小设置,分别对应intersection size title,intersection size tick labels,set size title,set size tick labels,set names,numbers above bars
keep.order = TRUE,#让集合按照 sets 参数中指定的出现的顺序排列
queries = list(list(query = intersects,
params = list("Thriller","Action"),
active = T,color="#EF4143")))#设置查询条件
这样我们就得到了一张个性化的用于展示数据集合的图形,之后我们可以将得到的图形保存成PDF,再导入到PS或者AI进行进一步地美化和调整。