第一章 使用ggplot2进行数据可视化

腾讯云镜像:
options("repos" = c(CRAN="http://mirrors.cloud.tencent.com/CRAN/"))
创建ggplot图形
绘图模板:
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
ggplot()函数创建一个坐标系,可以在上面添加图层。第一个data参数表示要使用的数据集。geom_point()函数表示向图中添加一个点层,也就是创建一个散点图,ggplot2中包含多种几何对象作图函数,每种函数都可以向初始坐标系中添加不同类型的图层。每个几何对象函数都有一个mapping参数,这个参数定义了如何将数据集中的变量映射为图形属性。mapping参数总是和aes()函数成对出现,aes()函数的x参数和y参数分类指定映射到x轴的变量与映射到y轴的变量,它会在data参数中寻找所指定的映射变量。

图形属性映射
图形属性是图中对象的可视化属性,包括数据点的大小,形状,颜色等,通过改变图形属性的值能以不同的方式来显示数据点。例如:向二维散点图中添加第三个变量,将其映射为图形属性。
color属性


size属性


alpha属性


shape属性
注:只能处理6个一类的分类变量,多出的变量值不会显示在图形中。


pch,fill参数
pch参数用于控制点的形状,有如下形状:


有的形状相同比如0,15,22都是正方形。形状之间的区别在于其颜色不同,而控制其颜色的参数有color和fill两个。空心形状(0-14)的边界颜色由color决定;实行形状(15-20)的填充颜色由color决定;填充形状(21-24)的边界颜色由color决定,填充颜色由fill决定。


分面
添加额外变量的一种方法是使用图形属性,另一种方法是将图形分割成多个分面,即可以显示数据子集的子图。
facet_wrap()函数
facet_wrap()函数可以用于对单个变量进行分面,传递给facet_wrap()的变量应该是离散型的。


facet_grid()函数
facet_grid()函数可以对两个变量进行分面,这个函数第一个参数也是一个公式,但该公式包含由~隔开的两个变量名。如果不想在行或列的维度进行分面,你可以使用 . 来代替变量名,例如 + facet_grid(. ~cyl)。



几何对象
几何对象是图中用来表示数据的几何图形对象。我们经常根据图中使用的几何对象类型l唉描述相应的图。想要改变图中的几何对象,需要修改添加在ggplot()函数中的几何对象函数。
geom_point()


geom_smoonth()


ggplot2中的每个几何对象函数都有一个mapping参数,但是不是所有的图形属性都适合每种几何对象。比如可以设置点的形状,不能设置线的形状,但是可以设置线的线型。
geom_smooth() 函数可以按照不同的线型绘制出不同的曲线,每条曲线对应映射到线型的变量的一个唯一值:


平滑曲线+散点图:


gplot2 提供了 30 多种几何对象,其扩展包甚至提供了更多(可以在 https://www.ggplot2-exts.org 查看更多样例)。如果想全面地了解这些对象,最好的方式是学习 ggplot2 速查表(参见 http://rstudio.com/cheatsheets)。如果想掌握更多关于某个几何对象的知识,那么可以使用帮助,如 ?geom_smooth。
group图形属性
和 geom_smooth() 一样,很多几何对象函数使用单个几何对象来表示多行数据。你可以将这些几何对象的 group 图形属性设置为一个分类变量,这样 ggplot2 就会为这个分类变量的每个唯一值绘制一个独立的几何对象。这是一个非常方便的属性,因为按照图形属性的这种分组不用添加图例,也不用为几何对象添加区分特征:(没有特色,不建议使用)


多个几何对象
要想在同一张图中显示多个几何对象,可以向 ggplot() 函数中添加多个几何对象函数:


添加多个几何对象函数的方法会使代码产生重复,如果需要修改的时候工作量会更大且容易出错,避免这种重复的方法是将一组映射传递给 ggplot() 函数。 ggplot2 会将这些映射作为全局映射应用到图中的每个几何对象中。


如果将映射放在几何对象函数中,那么 ggplot2 会将其看作这个图层的局部映射,它将使用这些映射扩展或覆盖全局映射,但仅对该图层有效。


同理,也可以为不同的图层指定不同的数据。se=TRUE显示置信区间,FALSE不显示置信区间。


统计变换
• 条形图、直方图和频率多边形图可以对数据进行分箱,然后绘制出分箱数量和落在每个分箱的数据点的数量。
• 平滑曲线会为数据拟合一个模型,然后绘制出模型预测值。
• 箱线图可以计算出数据分布的多种摘要统计量,并显示一个特殊形式的箱体。
绘图时用来计算新数据的算法称为 stat(statistical transformation, 统计变换)。
下图描述了geom_bar() 函数的统计变换过程:


每个几何对象函数都有一个默认统计变换,每个统计变换函数都有一个默认几何对象,因此几何对象函数和统计变换函数可以互换使用。例如,可以使用 stat_count()替换 geom_bar() 来重新生成前面那张图:


stat_summary()
stat_summary()函数可以对计算得出的某些摘要进行强调。

  • fun.y 表示指定对y的汇总函数,同样是输入数字向量,返回单个数字,这里的y通常会被分组,汇总后是每组返回1个数字
  • fun.ymin 表示取y的最小值,输入数字向量,每组返回1个数字
  • fun.ymax 表示取y的最大值,输入数字向量,每组返回1个数字


位置调整
fill图形属性可以用于为条形图上色


position参数
position参数的功能是对图形进行位置调整,可选参数:identity,fill,dodge,jitter等。
identity
当不对position进行指定时,默认为identity,采用堆叠式:



fill
百分式:


dodge
分离式:


jitter
过绘制:绘制散点图是,当绘制的点很多时,可能会出现同一个位置出现点重复而导致绘制出来的三点数量与真实的点的数量不匹配的情况。


结果过绘制的问题可以通过讲position设置为jitter,即添加扰动解决:


因为这种操作的用处非常大,所以 ggplot2 提供了 geom_point(position = "jitter") 的一种快速实现方式: geom_jitter()。

坐标系
坐标系可能是 ggplot2 中最复杂的部分。默认的坐标系是笛卡儿直角坐标系,可以通过其独立作用的 x 坐标和 y 坐标找到每个数据点。
coord_flip()
coord_flip() 函数可以交换 x 轴和 y 轴。该方法对于x轴标签过于密集而导致相互重合用较好的使用价值。


coord_quickmap()
coord_quickmap() 函数可以为地图设置合适的纵横比。当使用 ggplot2 绘制空间数据时,
这个函数特别重要(遗憾的是本书不涉及空间数据):


coord_polar()
coord_polar() 函数使用极坐标系。


图形分层语法
ggplot(data = <DATA>) + #数据集
<GEOM_FUNCTION>( #几何对象
mapping = aes(<MAPPINGS>), #映射
stat = <STAT>, #统计变换
position = <POSITION> #位置调整
) +
<COORDINATE_FUNCTION> + #坐标系
<FACET_FUNCTION> #分面
ggplot2使用随记:
theme(panel.grid =element_blank()) + ## 删去网格线
theme(axis.text = element_blank()) ## 删去所有刻度标签
theme(axis.text.y = element_blank()) ## 设置 axis.text.y 则只删去 Y 轴的刻度标签,X 轴同理。
scale_x_discrete(position = "top") #设置x轴的位置在顶部

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342