第一章使用ggplot2进行数据可视化

腾讯云镜像：
options("repos" = c(CRAN="http://mirrors.cloud.tencent.com/CRAN/"))
创建ggplot图形
绘图模板：
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
ggplot()函数创建一个坐标系，可以在上面添加图层。第一个data参数表示要使用的数据集。geom_point()函数表示向图中添加一个点层，也就是创建一个散点图，ggplot2中包含多种几何对象作图函数，每种函数都可以向初始坐标系中添加不同类型的图层。每个几何对象函数都有一个mapping参数，这个参数定义了如何将数据集中的变量映射为图形属性。mapping参数总是和aes()函数成对出现，aes()函数的x参数和y参数分类指定映射到x轴的变量与映射到y轴的变量，它会在data参数中寻找所指定的映射变量。

图形属性映射
图形属性是图中对象的可视化属性，包括数据点的大小，形状，颜色等，通过改变图形属性的值能以不同的方式来显示数据点。例如：向二维散点图中添加第三个变量，将其映射为图形属性。
color属性

size属性

alpha属性

shape属性
注：只能处理6个一类的分类变量，多出的变量值不会显示在图形中。

pch，fill参数
pch参数用于控制点的形状，有如下形状：

有的形状相同比如0，15，22都是正方形。形状之间的区别在于其颜色不同，而控制其颜色的参数有color和fill两个。空心形状（0-14）的边界颜色由color决定；实行形状（15-20）的填充颜色由color决定；填充形状（21-24）的边界颜色由color决定，填充颜色由fill决定。

分面
添加额外变量的一种方法是使用图形属性，另一种方法是将图形分割成多个分面，即可以显示数据子集的子图。
facet_wrap()函数
facet_wrap()函数可以用于对单个变量进行分面，传递给facet_wrap()的变量应该是离散型的。

facet_grid()函数
facet_grid()函数可以对两个变量进行分面，这个函数第一个参数也是一个公式，但该公式包含由~隔开的两个变量名。如果不想在行或列的维度进行分面，你可以使用 . 来代替变量名，例如 + facet_grid(. ~cyl)。

几何对象
几何对象是图中用来表示数据的几何图形对象。我们经常根据图中使用的几何对象类型l唉描述相应的图。想要改变图中的几何对象，需要修改添加在ggplot()函数中的几何对象函数。
geom_point()

geom_smoonth()

ggplot2中的每个几何对象函数都有一个mapping参数，但是不是所有的图形属性都适合每种几何对象。比如可以设置点的形状，不能设置线的形状，但是可以设置线的线型。
geom_smooth() 函数可以按照不同的线型绘制出不同的曲线，每条曲线对应映射到线型的变量的一个唯一值：

平滑曲线＋散点图：

gplot2 提供了 30 多种几何对象，其扩展包甚至提供了更多（可以在 https://www.ggplot2-exts.org 查看更多样例）。如果想全面地了解这些对象，最好的方式是学习 ggplot2 速查表（参见 http://rstudio.com/cheatsheets）。如果想掌握更多关于某个几何对象的知识，那么可以使用帮助，如 ?geom_smooth。
group图形属性
和 geom_smooth() 一样，很多几何对象函数使用单个几何对象来表示多行数据。你可以将这些几何对象的 group 图形属性设置为一个分类变量，这样 ggplot2 就会为这个分类变量的每个唯一值绘制一个独立的几何对象。这是一个非常方便的属性，因为按照图形属性的这种分组不用添加图例，也不用为几何对象添加区分特征：（没有特色，不建议使用）

多个几何对象
要想在同一张图中显示多个几何对象，可以向 ggplot() 函数中添加多个几何对象函数：

添加多个几何对象函数的方法会使代码产生重复，如果需要修改的时候工作量会更大且容易出错，避免这种重复的方法是将一组映射传递给 ggplot() 函数。 ggplot2 会将这些映射作为全局映射应用到图中的每个几何对象中。

如果将映射放在几何对象函数中，那么 ggplot2 会将其看作这个图层的局部映射，它将使用这些映射扩展或覆盖全局映射，但仅对该图层有效。

同理，也可以为不同的图层指定不同的数据。se=TRUE显示置信区间，FALSE不显示置信区间。

统计变换
• 条形图、直方图和频率多边形图可以对数据进行分箱，然后绘制出分箱数量和落在每个分箱的数据点的数量。
• 平滑曲线会为数据拟合一个模型，然后绘制出模型预测值。
• 箱线图可以计算出数据分布的多种摘要统计量，并显示一个特殊形式的箱体。
绘图时用来计算新数据的算法称为 stat（statistical transformation，统计变换）。
下图描述了geom_bar() 函数的统计变换过程：

每个几何对象函数都有一个默认统计变换，每个统计变换函数都有一个默认几何对象，因此几何对象函数和统计变换函数可以互换使用。例如，可以使用 stat_count()替换 geom_bar() 来重新生成前面那张图：

stat_summary()
stat_summary()函数可以对计算得出的某些摘要进行强调。

fun.y 表示指定对y的汇总函数，同样是输入数字向量，返回单个数字，这里的y通常会被分组，汇总后是每组返回1个数字
fun.ymin 表示取y的最小值，输入数字向量，每组返回1个数字
fun.ymax 表示取y的最大值，输入数字向量，每组返回1个数字

位置调整
fill图形属性可以用于为条形图上色

position参数
position参数的功能是对图形进行位置调整，可选参数：identity，fill，dodge，jitter等。
identity
当不对position进行指定时，默认为identity，采用堆叠式:

fill
百分式：

dodge
分离式：

jitter
过绘制：绘制散点图是，当绘制的点很多时，可能会出现同一个位置出现点重复而导致绘制出来的三点数量与真实的点的数量不匹配的情况。

结果过绘制的问题可以通过讲position设置为jitter，即添加扰动解决：

因为这种操作的用处非常大，所以 ggplot2 提供了 geom_point(position = "jitter") 的一种快速实现方式： geom_jitter()。

坐标系
坐标系可能是 ggplot2 中最复杂的部分。默认的坐标系是笛卡儿直角坐标系，可以通过其独立作用的 x 坐标和 y 坐标找到每个数据点。
coord_flip()
coord_flip() 函数可以交换 x 轴和 y 轴。该方法对于x轴标签过于密集而导致相互重合用较好的使用价值。

coord_quickmap()
coord_quickmap() 函数可以为地图设置合适的纵横比。当使用 ggplot2 绘制空间数据时，
这个函数特别重要（遗憾的是本书不涉及空间数据）：

coord_polar()
coord_polar() 函数使用极坐标系。

图形分层语法
ggplot(data = <DATA>) + #数据集
<GEOM_FUNCTION>( #几何对象
mapping = aes(<MAPPINGS>), #映射
stat = <STAT>, #统计变换
position = <POSITION> #位置调整
) +
<COORDINATE_FUNCTION> + #坐标系
<FACET_FUNCTION> #分面
ggplot2使用随记：
theme(panel.grid =element_blank()) + ## 删去网格线
theme(axis.text = element_blank()) ## 删去所有刻度标签
theme(axis.text.y = element_blank()) ## 设置 axis.text.y 则只删去 Y 轴的刻度标签，X 轴同理。
scale_x_discrete(position = "top") #设置x轴的位置在顶部

第一章 使用ggplot2进行数据可视化

友情链接更多精彩内容

第一章使用ggplot2进行数据可视化