R数据可视化18:弧形图

每次有正事的时候就想逃避写个简书,假装自己没有干不正经的事。(明明我还有一些数据需要分析呢,但是毫无分析的动力。)好的,今天我们来介绍一个很酷炫的图:弧形图(Arc Diagram)

什么是弧形图(Arc Diagram)

弧形图顾名思义,是由弧形组成的。粗暴一点,直接上图让大家来看一下什么是弧形图。

图片来源:https://www.data-to-viz.com/graph/arc.html

可以看到上图中有很多个节点,不同的节点之间用弧形进行连接。没错,弧形图就是一种可以用来表示关联,展示多个节点之间关系的一种图。

这种关联可能有多种情况,最常见的可以用于展现相关性结果,还可以用于展现不同字词共同出现的频率等等(比如上面这张图就分析了雨果的名作《悲惨世界》中的人物出现情况)。

通过线的粗细、颜色以及节点的各种属性,你可以在图中展现关联各种特性,比如可以用线的粗细表示共现的频率,用节点大小表示该词汇出现的频率。

你可能会疑惑,我们已经有很多种展现关联的方式,比如最简单的网络图或者和弦图(好像我都没有讲过,糟糕,我以后慢慢补)。为什么要用弧形图呢?其实,这几种展现网络关系的图各自特点,下面我们来看一个非常有意思的例子,以展现弧形图的优势(例子来源:data-to-viz网站)。

首先来介绍一下绘图的数据。在学术圈,不同实验室之间可能会有一些长期合作的关系,因此某些作者可能常常会出现在同一篇文章里。比如有一些老板之间可能是师徒,或者是从同一个实验室里出来,所以会经常合作。

而这次例子的数据就是收集了许多文章和作者,通过不同的网络图来展示作者之间的关联:如果两个作者出现在同一篇文章里,那么就会用线将他们连接起来。

我们先来看一下最基础的网络图的效果。可以看到出现了多个模块,体现出了一些人之间的关系可能更为亲密。但是一旦关系复杂起来,比如最大的那个模块,似乎很难清楚地标注每一个节点是谁。即便标注出来了,也不便于你快速找到你关注的目标。

Network图

那么有没有什么方法可以显示所有人的姓名呢?和弦图怎么样?
虽然和弦图能够表示所有人的姓名,但是与网络图比起来,似乎人与人之间的关系没有那么直观了,感觉这些线有点杂乱无章。

和弦图

那么我们再来看看弧形图的效果,可以发现弧形图不仅能够很好地展现每一个人的姓名,也可以看到一些人之间存在紧密的关联,一些人之间的关联很少或者根本没有关联。

弧形图

当然,如果你对节点不进行调整,那么就有可能出现下图这种可怕的情况。

杂乱无章的弧形图

不过如果能够对节点的顺序进行一些调整,和弦图就能很好地体现出各个节点之间的关联,同时还能允许展现出每个节点的标注。而当节点较多的时候,在网络图中其实很难做到这一点,即便做到这一点,也让人觉得眼花缭乱。而和弦图虽然也能展现出节点信息,但是由于是一个环状,所以也可读性也不如弧形图。

那么弧形图要如何绘制呢?

怎么做弧形图

1)需要什么格式的数据
我们还是用上面例子中的数据,代码来源还是参考上面提到的data-to-viz网站
具体需要两部分的数据,一部分是具体的贡献情况connect表,另一个是各个作者的共现数目coauth表。

library(tidyverse)
dataUU <- read.table("https://raw.githubusercontent.com/holtzy/data_to_viz/master/Example_dataset/13_AdjacencyUndirectedUnweighted.csv", header=TRUE)
#将dataUU转化成所需的格式
connect <- dataUU %>% 
  gather(key="to", value="value", -1) %>% #将matrix变成三列,一列from,一列to,一列共现文献数
  mutate(to = gsub("\\.", " ",to)) %>% #将to这一列中姓名.去掉变成空格
  na.omit() #剔除NA
head(connect)#第一列的数字是剔除NA之前的行号
          from        to value
89   RF Murphy A Bateman     1
184 M Ardisson A Besnard     1
234    Y Holtz A Besnard     1
237   A Armero   A Breil     1
276 FC Baurens   A Breil     1
326     S Bocs   A Breil     1

# 计算每个作者的共现条数
c( as.character(connect$from), as.character(connect$to)) %>%
  as.tibble() %>% #将数据的type转变为tbl_df,tibble可以理解成是一种加强版的数据框
  group_by(value) %>% #按照value进行分组
  summarize(n=n()) -> coauth
colnames(coauth) <- c("name", "n")#修改列名
head(coauth)
# A tibble: 6 x 2
  value            n
  <chr>        <int>
1 A Armero         6
2 A Bateman        5
3 A Besnard        6
4 A Breil          6
5 A Cenci          4
6 A Chifolleau     1

library(igraph)
mygraph <- graph_from_data_frame( connect, vertices = coauth, directed = FALSE )

理论上使用上述数据就可以作图了(具体代码参见下一小节),但是我们可以看一下做出来的效果。


image.png

没错效果非常糟糕,这就是我们为什么要对节点进行调整的原因,那么我们要如何对节点进行调整呢?我们可以使用igraph包中的walktrap.community函数。这是一个用来进行社区划分的函数。
当然,igraph包中还提供了许多其他划分函数比如fastgreedy.communityspinglass.community,edge.betweenness.community,leading.eigenvector.community等(不过我还没有仔细研究过具体的区别)。
那么我们来调整一下数据:

# 鉴定社区
com <- walktrap.community(mygraph)

#重新整理数据
coauth <- coauth %>% 
  mutate( grp = com$membership) %>%
  arrange(grp) %>%
  mutate(name=factor(name, name))

# 保留排名前15的社区
coauth <- coauth %>% 
  filter(grp<16)

# 只保留排名前15的社区涉及的作者
connect <- connect %>%
  filter(from %in% coauth$name) %>%
  filter(to %in% coauth$name)

mygraph <- graph_from_data_frame( connect, vertices = coauth, directed = FALSE )

2)如何作图
接着,我们将使用ggraph函数进行画图。

library(RColorBrewer)
library(ggraph)
mycolor<-colorRampPalette(brewer.pal(9, "Paired"))
ggraph(mygraph, layout="linear") + 
  geom_edge_arc(edge_colour="black", edge_alpha=0.2, edge_width=0.3, fold=TRUE) +
  geom_node_point(aes(size=n, color=as.factor(grp), fill=grp), alpha=0.5) +
  scale_size_continuous(range=c(0.5,8)) +
  scale_color_manual(values=mycolor(15)) +
  geom_node_text(aes(label=name), angle=65, hjust=1, nudge_y = -1.1, size=2.3) +
  theme_void() +
  theme(
    legend.position="none",
    plot.margin=unit(c(0,0,0.4,0), "null"),
    panel.spacing=unit(c(0,0,3.4,0), "null")
  ) +
  expand_limits(x = c(-1.2, 1.2), y = c(-5.6, 1.2)) 

弧线图

今天的分享就到这里啦。

往期R数据可视化分享
R数据可视化17:桑基图
R数据可视化16:哑铃图
R数据可视化15:倾斜图 Slope Graph
R数据可视化14:生存曲线图
R数据可视化13:瀑布图/突变图谱
R数据可视化12: 曼哈顿图
R数据可视化11: 相关性图
R数据可视化10: 蜜蜂图 Beeswarm
R数据可视化9: 棒棒糖图 Lollipop Chart
R数据可视化8: 金字塔图和偏差图
R数据可视化7: 气泡图 Bubble Plot
R数据可视化6: 面积图 Area Chart
R数据可视化5: 热图 Heatmap
R数据可视化4: PCA和PCoA图
R数据可视化3: 直方/条形图
R数据可视化2: 箱形图 Boxplot
R数据可视化1: 火山图

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容