非常有意思的数据可视化案例 ,原文提出的问题是 学术论文中的作者数量有逐年增加的趋势 ;于是利用R语言里的
rplos
包抓取了 Plos 系列的6本期刊的2006年至2013年的每篇论文里的作者数量 进行可视化展示
原文链接是
https://benjaminlmoore.wordpress.com/2014/04/06/author-inflation-in-academic-literature/
完整的代码链接
https://github.com/blmoore/blogR
原始代码中抓取数据的部分好像不能用了,我稍微改动了一下,选取了2006年到2020年的数据,获取数据的代码这里就不放了,如果需要本文的示例数据可以知己在文末留言
数据已经存储到了文件里 首先是读取数据
library(readr)
df<-read_tsv("author_number.tsv")
head(df)
期刊分别是
table(df$journal)
作图代码
ibrary(ggplot2)
ggplot(df, aes(x=year, y=auth_num, col=journal, fill=journal)) +
stat_summary(fun.data="mean_cl_boot", geom="ribbon",
#width=.2,
alpha=I(.5)) +
stat_summary(fun="mean", geom="line") +
labs(x="Year", y="Mean number of authors per paper") +
theme_bw() +
theme(legend.position="top") +
scale_fill_brewer(type="qual", palette=2,
guide=guide_legend(direction="vertical",
label.position="bottom",
title=NULL,
ncol=6,
label.hjust=0.5)) +
scale_color_brewer(type="qual", palette=2, guide="none")+
facet_wrap(~journal,ncol=23)
根据上图确实可以看出学术期刊的作者数量确实是有增加的趋势的
这里新学到的知识点是使用stat_summary()
函数添加置信区间,之前自己也实现过这个图,但是需要提前算好置信区间和平均值,比如之前的推文 R语言ggplot2画带有置信区间的折线图和分组求均值遇到的一个问题,如果换成 stat_summary()
这个函数以后就方便很多
好了,今天的内容就到这里了
大家如果需要推文的示例数据和代码的话可以直接在公众号 后台回复 20210426
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!