数据可视化基础和常见可视化策略

Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures 1st Edition - by Claus O. Wilke
是一本系统讲解常见数据可视化的问题的书籍,包括内容选择、表现形式、注释形式等。但作者并没有把它当成编程书籍,因此没有现成的代码。

Ugly, Bad, and Wrong Figures

  1. Ugly: 信息清晰丰富但很丑的图片
  2. Bad: 不清晰、欺骗性、迷惑性、或者过度复杂的图片
  3. Wrong:存在数字上的问题
library(ggplot2)
library(patchwork)
data <- data.frame(names = c("A", "B", "C"), 
                   values = c(5, 4, 3))

theme <- theme(panel.grid.major.y = element_line(colour = "black"), 
               panel.background = element_blank(),
               axis.line.y = element_blank())
p1 <- ggplot(data = data) + geom_col(aes(x = names, y = values)) + 
  theme

p2 <- ggplot(data = data) + geom_col(aes(x = names, 
                                         y = values, 
                                         fill = names)) + 
  labs(title = "ugly") + 
  theme 
p3 <- ggplot(data = data) + geom_col(aes(x = names, 
                                         y = values)) + 
  labs(title = "bad") + 
  theme(panel.background = element_blank(),
        axis.ticks = element_blank(),
        axis.title = element_blank(),
        axis.text.y = element_blank())


ggsave("C:\\Users\\Administrator\\Desktop\\Ugly_Bad_Figures.png", p1+p2/p3 + plot_annotation(tag_levels = 'A'))
Ugly_Bad_Figures.png

解释

图不是完全相同,意思意思。
A. 没有太多瑕疵。
B. 填充颜色是没有必要的变量。
C. 没有y坐标轴,只知道数据大概比例,不知道确切数值。

可视化目录

总述一般常见的数据可视化策略,可以作为参考字典,为日常可视化提供思路。

Visualizing Amounts

柱状图一般用于,当我们都有一组分类变量以及每个类别的定量值,而我们关注的主要重点是定量值的大小时。

  1. 应该在柱状图背景保留横网格线,便于比较我们关注的值。

  2. 当分类label过长时,最好选择横向柱状图,避免出现旋转label,保持文字阅读方向与图形方向的统一性。

  3. 应该注意对柱状图(或点图,棒棒糖图)进行适当排序(大小,分类变量,分布心态)。

  4. 当分类数据过多时,可以选择棒棒糖图(点图 + 点到坐标轴连线)或热图

ggplot2中柱状图的基本绘制函数有geom_bar() 和 geom_col(),其中geom_bar() 产生的柱状图映射是经过统计变换的(count, ..prop..);geom_col()是不经过统计变换的,代表的就是该分类变量的实际值。

image.png

棒棒糖图也是一种可以选择的图形映射。

Distributions

单变量分布图

image.png

多变量分布图

Proportions

单变量比例图

image.png

多变量比例图

image.png

image.png

其他

与散点图相比,坡度图(Slopegraphs)有一个重要的优势:它们可用于一次比较两个以上的测量结果。

比列原则

1. 保证坐标轴从0开始

在许多不同的可视化场景中,我们常常通过图形元素的范围来表示数据值。例如,在柱状图中,我们所绘制柱子一般是从0开始到其代表的数据值结束。在这种情况下,数据值不仅被编码在条的端点中,而且还被编码在条的高度或长度中。此时,如果我们绘制的条形图的起始值不在0点,则条形图的长度比例和条形图端点所代表的数字可能会传达相互矛盾的信息。因此,当阴影区域用于表示数值时,该阴影区域的面积应与相应的值成正比。

library(ggplot2)
require(patchwork)
set.seed(13)
data <- data.frame(name = rep(LETTERS[1:10],3),
                   value = runif(30, min = 1, max = 10))
customer_theme <- theme(panel.grid.major.y = element_line(colour = "black"), 
                        panel.background = element_blank(),
                        axis.line = element_line(colour = "black"),
                        axis.title.y = element_blank())


p1 <- ggplot(data = data, aes(x = name, y = value)) + 
  geom_col() +
  coord_cartesian(ylim = c(10, 25)) + 
  customer_theme

p2 <- ggplot(data = data, aes(x = name, y = value)) + 
  geom_col() +
  customer_theme
Proportional_Ink.png

左图是阴影部分与实际值成正比的一个示例,当我们让实际值等于阴影部分加上坐标轴起点10时,我们可以看到F、G与其他的分组的值差异显得非常大,使图片传递出了一个具有误导性的信息。

2. 利用平均值或中位数

当我们切实需要展示大数据中的差异度相对较小变化时,可以选择利用数据的中位数或者平均值为0点,做类似瀑布图的柱状图。

library(ggplot2)
require(patchwork)
set.seed(13)
data <- data.frame(name = rep(LETTERS[1:10]),
                   value = rnorm(10, mean = 5, sd = 2))
customer_theme <- theme(panel.grid.major.y = element_line(colour = "black"), 
                        panel.background = element_blank(),
                        axis.line = element_line(colour = "black"),
                        axis.title.y = element_text(colour = "red"))


p1 <- ggplot(data = data, aes(x = name, y = value)) + 
  geom_col() +
  customer_theme

data_mean <- mean(data$value)

p2 <- ggplot(data = data, aes(x = name, y = (value - data_mean))) + 
  geom_col() +
  customer_theme + labs(y = "change in mean **")


ggsave(filename =  quote(mean_bar.png), 
       plot = p1 +p2 + plot_annotation(tag_levels = 'A'), 
       path = file)
mean_bar.png

3. 避免标签重叠

ggrepel 主要通过geom_text_repel()geom_label_repel() 两个函数对标签重叠进行处理。

library(ggplot2)
library(patchwork)
library(ggrepel)

set.seed(13)
dat <- subset(mtcars, wt > 2.75 & wt < 3.45)
dat$car <- rownames(dat)
p <- ggplot(dat, aes(wt, mpg, label = car)) +
  geom_point(color = "red")
p2 <- p + geom_text()
p3 <- p + geom_text_repel() +
  labs(title = "geom_text_repel")
p4 <- p + geom_text_repel(min.segment.length = 0, 
                          box.padding = 0.5) +
  labs(title = "box.padding = 0.5")
ggrepel.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容