学习tidyverse - 数据可视化(1)

我学习的主要是这本书R for Data Science.


上图是我们处理数据的流程

  • 导入:首先,必须将数据导入R。

  • 整理:导入数据后,需要整理一下,整理数据意味着以统一整齐的形式存储数据,我称它为齐整数据。

  • 转换:整理完数据后,通常第一步是对其进行转换。转换包括缩小观测范围(提取)(例如一个城市中的所有人或去年的所有数据),创建现有变量的函数的新变量(例如根据距离和时间来计算速度)以及计算一组统计信息(如计数或均值)。

  • 描述:一旦有了需要的变量的齐整数据,就可以使用两个主要的方式来描述它:可视化和建模。
    (1) 良好的可视化效果会反映出在输入时的错误或者对数据提出新的问题,或者反映出需要收集其他数据。
    (2) 模型是可视化的补充工具。一旦问题变得足够精确,就可以使用模型来描述回答。

  • 交流:数据统计科学的最后一步是交流(没理解)。
    我们首先从数据可视化开始学习,先了解我们最后能得到一个什么样fancy的结果,这里主要用到了ggplot2包。

1. Prerequisites

install.packages("tidyverse")
library(tidyverse)

我们使用ggplot2中的mpg数据框进行分析测试。 数据框是变量(列)和观察值(行)的矩阵集合。 mpg包含美国环境保护署收集的有关38辆汽车的观察结果。

mpg
#> # A tibble: 234 x 11
#>   manufacturer model displ  year   cyl trans      drv     cty   hwy fl    class 
#>   <chr>        <chr> <dbl> <int> <int> <chr>      <chr> <int> <int> <chr> <chr> 
#> 1 audi         a4      1.8  1999     4 auto(l5)   f        18    29 p     compa…
#> 2 audi         a4      1.8  1999     4 manual(m5) f        21    29 p     compa…
#> 3 audi         a4      2    2008     4 manual(m6) f        20    31 p     compa…
#> 4 audi         a4      2    2008     4 auto(av)   f        21    30 p     compa…
#> 5 audi         a4      2.8  1999     6 auto(l5)   f        16    26 p     compa…
#> 6 audi         a4      2.8  1999     6 manual(m5) f        18    26 p     compa…
#> # … with 228 more rows

displ: 表示汽车引擎大小(以升为单位)。
hwy: 高速公路上的汽车燃油效率,以英里/加仑(mpg)为单位。 当相同距离行驶时,低燃油效率的汽车比高燃油效率的汽车消耗更多的燃油。

2. Creating a ggplot

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

该图显示了发动机尺寸(排量)和燃油效率(高速)之间的负相关关系。
ggplot()的第一个参数是要在图形中使用的数据集。因此ggplot(data = mpg)创建了一个空图,然后通过向ggplot()添加一层或多层来完成图形。
函数geom_point()在绘图上添加了一层点,从而创建了一个散点图。
ggplot2附带了许多geom函数,每个函数都会在绘图中添加不同类型的图层。ggplot2中的每个geom函数都带有一个映射参数。这定义了数据集中的变量如何映射到视觉属性。映射参数始终与aes()配对,而aes()的x和y参数指定要映射到x和y轴的变量。

3. Aesthetic mappings

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, color = class))

在上面的示例中,我们将点的类别映射到颜色,我们也可以以相同的方式将类别映射到尺寸。

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, size = class))
#> Warning: Using size for a discrete variable is not advised.

我们也可以将类映射到控制点的透明度的alpha,或控制点的形状。

# Up
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, alpha = class))

# Down
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy, shape = class))
Up

Down

ggplot2一次只能使用六个形状。对于每种映射,都可以使用aes()将映射名称与要显示的变量相关联。

还可以手动设置几何图形的映射属性。例如,我们可以将图中的所有点设为蓝色:

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy), color = "blue")

要手动设置映射,需按名称将映射设置为geom函数的参数, 需要选择一种适合该美学的水平:

  • 颜色的名称,为字符串。
  • 点的大小,以毫米为单位。
  • 点的形状为数字,如图所示。

4. Facets

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_wrap(~ class, nrow = 2)
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) + 
  facet_grid(drv ~ cyl)

5. Geometric objects

# Up
ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

# Down
ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy))
Up

Down

ggplot2中的每个geom函数都带有一个映射参数。 可以设置点的形状,或者可以设置线的线型。 例如:geom_smooth()将为映射到线型的变量的每个唯一值绘制一条不同的线,并使用不同的线型。

ggplot(data = mpg) + 
  geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))


许多几何图形(例如geom_smooth())都使用单个几何对象显示多行数据。ggplot2将为分组group变量的每个唯一值绘制一个单独的对象。

ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy))
              
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, group = drv))
    
ggplot(data = mpg) +
  geom_smooth(
    mapping = aes(x = displ, y = hwy, color = drv),
    show.legend = FALSE
  )



要在同一图中显示多个几何,可以将多个几何函数添加到ggplot()中:

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy)) +
  geom_smooth(mapping = aes(x = displ, y = hwy))

如果将映射放置在geom函数中,则ggplot2会将其视为该图层的局部映射。 它将仅使用这些映射来扩展或覆盖该层的全局映射。 这可以实现在不同的图层显示不同的映射。

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
  geom_point(mapping = aes(color = class)) + 
  geom_smooth()

可以使用相同的想法为每个图层指定不同的数据。 在这里,我们的平滑线仅显示mpg数据集的一个子集,即小型汽车。 geom_smooth()中的局部数据参数仅覆盖该层的ggplot()中的全局数据参数。

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + 
  geom_point(mapping = aes(color = class)) + 
  geom_smooth(data = filter(mpg, class == "subcompact"), se = FALSE)

参考:https://r4ds.had.co.nz/introduction.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容