“ 能最好又最清晰的表示数据变化趋势的统计图表,就是折线图了吧。”
上一节内容中,我们讲解了关于使用qplot和ggplot绘制条形图和直方图的方法
光速绘制漂亮的条形图和直方图
onlybugs,公众号:轻松玩转生信可视化系列3 | 快速绘图qplot2-条形
折线图常常被用来表示数据的变化趋势,我们最常见的折线图都是这样,首先,具有一个类别型变量或者具有变化趋势的x变量,然后具有随着趋势发生变动的y变量,然后有很多个组别,每个组别随着x的变化,y的变化趋势不同,因此就可以绘制一组比较不错的折线图了。
其实折线图的话,我们使用excel或者tableau也可以做出不错的效果,如果你熟悉python的话,那么使用seaborn也是可以的,但是上述工具的可拓展性以及可以控制的参数比较少,没办法全局操作。如果你需要高要求的折线图,请使用ggplot,今天首先用qplot来绘制比较基本的折线图。
让我们开始吧!
绘制基本折线图
开始画图的第一步,当然是加载我们的包,以及展示一下我们要使用的数据集了,由于此处展示的折线图绘制比较基础,所以我们自己生成一组数据集
library(ggplot2)
year <- rep(1999:2021, times = 2)
type <- rep(c('A','B'),each = 23)
value <- c(runif(23),runif(23, min = 2,max = 2.5))
df <- data.frame(year,value,type)
df1 <- df[df$type == "A",]
这里给大家搞了一组最简单的时间序列数据,其实使用真实的数据也可以,比如value可以是某个季度的销售额变化,股市的变化等等,接下来的type表示我想看的两个类型,比如两支不同的股票,或者两个不同品牌的同一种商品,根据折线就可以看出它们之间的区别,以及变化趋势,甚至是变化趋势的区别。
下面先给大家整个最基础的,只画一条折线的
qplot(x = year,y = value,data = df1,
geom = 'line')
效果很丑,就是一条扭曲的线嘛,但是如果是真实数据,我们能得到如下结论,首先,随着年份的增加,我们的因变量整体是在逐渐降低的,此外,如果大家了解时间序列分析的话还能看出来数据的变化有点循环波动的意思,具体分析就需要结合更多的知识才能解释这种现象。
扯多了,下面讲讲基本的绘图参数,对于折线图来说,非常重点的参数就是关于折线的颜色以及折线的宽度,加上通用的折线的类型
qplot(x = year,y = value,data = df1,
geom = "line",
color = I("#219ebc"))
是不是已经漂亮了很多,不过太细了,粗一些更好
qplot(x = year,y = value,data = df1,
geom = "line",
color = I("#219ebc"),
size = I(1.6))
现在看起来已经比较不错了,但是仍旧有一点点的不舒服,原因就在于我们的折线好像每一折都缺失了什么一样,所以需要看我们的下一部分教程。
散点折线图
上面的内容中,我们讲解了最基本的折线图的绘制,但是我们的图看起来总是有一点别扭的感觉,和我们平时论文里或者商业分析中的不太一样,因为我们的图中缺失了数据标识的点。
很多人都以为这种复杂的图需要使用ggplot部分语法才能绘制,其实不然,使用qplot依旧可以达到这个效果,我们只需要在geom参数中传入一个包含line和point的向量就可以做到了
qplot(x = year,y = value,data = df1,
这简直就是艺术品一样,不过大家可能会产生疑问,为什么我们的线条就这么细呢,怎么就不能粗起来呢?我给大家展示一下,然后再解释为什么
qplot(x = year,y = value,data = df1,
geom = c('line','point'),
color = I("#219ebc"))
也许你仔细看的时候,能发现我们其实是有散点的,但是它和折线融为了一体,我们无法分辨。那你可能会问了,为什么不给size也传两个参数呢?抱歉,我做不到,因为I函数只能接受一个参数,如果你传一个向量给size也是不行的,人家不要你。
这么看来好像了无解了,别急,我给你一个未来才会讲解的方案的结果,这也是为什么qplot有了以后还需要ggplot
qplot(x = year,y = value,data = df1,
geom = c('line','point'),
color = I("#219ebc"),
size = I(1.6))
(配色比较一般,将就着看)
分组折线图
最后,我们来讲解一下我们日常中看到的最多的,分组折线图,这是一种非常实用而且美观的图表
qplot(x = year,y = value,group = type,
color = type,
data = df,
geom = c('line','point'))
结果一目了然,我带大家分析一下这里的参数,有些细微变化,不说可能就是坑了。首先,多了一个新的参数,叫做group,我们可以试着不指定看看
qplot(x = year,y = value,
data = df,
geom = c('line','point'))
你可能会说这是啥啊,跟个噪音谱子一样,难看死了,而且好像也没啥实际价值。你说对了,因为我们的数据year是作为x轴的,每个year对应了两个value,它们分别是种类A和B,这也就导致了ggplot也不知道该怎么做了,只好给你都连在一起。
所以,我们的group参数的目的就是告诉ggplot,我们要把数据分组,按照哪一列进行分组,然后color后面的参数如果不跟上I()函数的话,就是用这一列映射不同的颜色,有几个类别变量就映射几个颜色。现在再翻上去看看我们绘制分组散点折线图是不是就一目了然了呢?
下一篇可视化的文章会讲解关于箱线图和小提琴图的绘制,同样是使用qplot进行处理,简单又方便,实在是美哉,连我接连用qplot用多了,都忍不住对它赞美一下下。