D4-R for Data Science

安装R包

install.packages("tidyverse")
数据处理神包
tidyverse

加载R包

library(tidyverse)
tidyverse 核心包为 R包ggplot2、tibble、readr、purrrr、dplyr

遇到问题解决办法:

如果错误消息不是英文,可以运行Sys.setenv(LANGUAGE = "en"),接着重新运行代码;使用英文错误消息进行查询更可能获得帮助。
如果Google没有找到报错答案,可以试试Stack Overflow。用[R]可以将搜索范围限定在与R相关的问题和答案中。如果没有发现任何有用的内容,可以准备一个简单的可重现实例,即reprex。

reprex 准备包括3项:所需R包,数据,代码。

  • 脚本开头就加载R包,并检查是否使用了每个R包的最新版本,例如用tidyverse_updata()函数。
  • 在 reprex 中包含数据的最简单方法是使用 dput() 函数生成重建数据的 R 代码。例如,
  • 要想在 R 中重建 mtcars 数据集,可以遵循以下步骤:
    (1) 在 R 中运行 dput(mtcars);
    (2) 复制输出结果;
    (3) 在可重现脚本中输入 mtcars <-,然后粘贴输出结果。
    应该努力找出依然能够反映问题的数据最小子集。
    花一点时间确保别人可以轻松理解你的代码:
  • 确保使用了空格,并且变量名简明扼要;
  • 用注释来说明你的问题所在;
  • 尽最大努力去除所有与问题不相关的内容。
    代码越短,越容易理解,问题也就越容易解决。
    启动一个新的 R 会话,将你的脚本复制并粘贴进去,检查 reprex 是否已经准备完毕。

创建ggplot图形

library(tidyverse) #加载tidyverse包
mpg  #使用的包含美国环保协会收集的38中车型观测数据
ggplot(data = mpg) +
  geom_point(mapping = aes(x=displ,y=hwy))

效果如下:


image.png

ggplot(data = mpg) 会创建一张空白图,函数 geom_point() 向图中添加一个点层,这样就可以创建一张散点图。 ggplot2 中包含了多种几何对象函数,每种函数都可以向图中添加不同类型的图层。
绘图模板:
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))

分页

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_wrap(~ class, nrow = 2)

效果如下:


image.png

要想通过两个变量对图进行分面,需要在绘图命令中加入函数facet_grid()。

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
facet_grid(drv ~ cyl)

效果如下:


image.png

注意: drv和cyl;class是分类变量 nrow=2 说明是分两行;

几何对象

ggplot2 中的每个几何对象函数都有一个 mapping 参数。但是,不是每种图形属性都适合每种几何对象。你可以设置点的形状,但不能设置线的“形状”,而可以设置线的线型。
geom_smooth() 函数可以按照不同的线型绘制出不同的曲线,每条曲线对应映射到线型的变量的一个唯一值:

ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))

效果如下:

image.png

点是geom_point ;线是geom_smooth;
要想在同一张图中显示多个几何对象,可以向 ggplot() 函数中添加多个几何对象函数:

ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy)) +
geom_smooth(mapping = aes(x = displ, y = hwy))

效果如下:


image.png

将一组映射传递给 ggplot() 函数。 ggplot2 会将这些映射作为全局映射应用到图中的每个几何对象中。
如果将映射放在几何对象函数中,那么 ggplot2 会将其看作这个图层的局部映射,它将使用这些映射扩展或覆盖全局映射, 但仅对该图层有效。这样一来,我们就可以在不同的图层中显示不同的图形属性。

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth()

效果如下:


image.png

同理,你也可以为不同的图层指定不同的数据。下图中的平滑曲线表示的只是 mpg 数据集的一个子集,即微型车。 geom_smooth() 函数中的局部数据参数覆盖了 ggplot() 函数中的全局数据参数,当然仅对这个图层有效:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(mapping = aes(color = class)) +
geom_smooth(
data = filter(mpg, class == "subcompact"),
se = FALSE
)

作图如下:


image.png

统计变换

• 条形图、直方图和频率多边形图可以对数据进行分箱,然后绘制出分箱数量和落在每个分箱的数据点的数量。
• 平滑曲线会为数据拟合一个模型,然后绘制出模型预测值。
• 箱线图可以计算出数据分布的多种摘要统计量,并显示一个特殊形式的箱体。

?geom_bar 显示出 stat 的默认值是 count,这说明 geom_bar() 使用 stat_count() 函数进行统计变换。?geom_bar 显示出 stat 的默认值是 count,这说明 geom_bar() 使用 stat_count() 函数进行统计变换。

ggplot(data = diamonds) +
geom_bar(
mapping = aes(x = cut, y = ..prop.., group = 1)
)
image.png
ggplot(data = diamonds) +
  geom_bar(mapping = aes(x = cut))
image.png

你可能想要在代码中强调统计变换。例如,你可以使用stat_summary() 函数将人们的注意力吸引到你计算出的那些摘要统计量上。 stat_summary() 函数为 x 的每个唯一值计算 y 值的摘要统计:

ggplot(data = diamonds) +
stat_summary(
mapping = aes(x = cut, y = depth),
fun.ymin = min,
fun.ymax = max,
fun.y = median
)
image.png

位置调整

条形图堆叠是由 position 参数设定的位置调整功能自动完成的。如果不想生成堆叠式条形图,你还可以使用以下 3 种选项之一: "identity"、 "fill" 和 "dodge"。

重点掌握以下两种:

image.png

image.png

此外还有一种位置调整,虽然不适合条形图,但非常适合散点图。回忆一下我们的第一张散点图。通过将位置调整方式设为“抖动”,可以避免这种网格化排列。 position = "jitter" 为每个数据点添加一个很小的随机扰动,这样就可以将重叠的点分散开来,因为不可能有两个点会收到同样的随机扰动:
image.png

坐标系

coord_flip()函数可以交换 x 轴和 y 轴。当想要绘制水平箱线图时,这非常有用。它也非常适合使用长标签。

ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
  geom_boxplot()
image.png
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot() +
coord_flip()
image.png

coord_quickmap() 函数可以为地图设置合适的纵横比。当使用 ggplot2 绘制空间数据时,这个函数特别重要。

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容