第1章-使用ggplot2进行数据可视化

title: "第1章使用ggplot2进行数据可视化"
author: "Hannisal"
date: "2020/7/28"
output:
html_document: default
pdf_document: default

if (!require(tidyverse)) install.packages("tidyverse") ## 安装tidyverse包
library(tidyverse)

如果想要明确指出某个函数（或数据集）的来源，那么可以使用特殊语法形式package::function()。例如，ggplot2::ggplot()明确指出了我们使用的是ggplot包中的ggplot()函数

mpg
ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))

在ggplot2中，你可以使用函数ggplot()函数开始绘图.ggplot()创建了一个坐标系，你可以在它上面添加图层。ggplot()的第一个参数是要在图中使用的数据集。ggplot(data=mpg)会创建一张空白图。

向ggplot中添加一个或多个图层就可以完成这张图。函数geom_point()向图中添加一个点层，这样就可以创建一张散点图。ggplot2中包含了多种集合对象函数，每种函数都可以向图中添加不同类型的图层。

ggplot2中的每个集合对象函数都有一个mapping参数。这个参数定义了如何将数据集中的变量映射为图形属性。mapping参数总是与aes()函数成对出现，aes()函数的x参数和y参数分别指定了映射到x轴的变量与映射到y轴的变量。ggplot2在data参数中寻找映射变量。

1.绘图模板

ggplot(data = <DATA>)+
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))

更改图形属性：颜色，大小，形状

color参数设定颜色

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,color = class))

也可手动设定，只需把color参数一道aes()外

ggplot2会自动为每个变量值分配唯一的图形属性水平，这个过程称为标度变换

size参数设定大小

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,size = class))

alpha参数设定数据点透明度

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,alpha = class))

shape参数设定数据点形状

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy,shape = class))

注意：ggplot2只能同时使用6种形状。默认情况下，当使用这种图形属性时，多出的变量值将不会出现在图中

2.分面

单个变量分面:可以使用函数facet_wrap()。其第一个参数是一个公式，创建公式的方式是在~符号后面加一个变量名。此外，传递给facet_wrap()的变量应该是离散型的

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))+
  facet_wrap(~class,nrow = 2)

两个变量分面：需要使用函数facet_grid()。这个函数的第一个参数也是公式，但该公式包含由~隔开的两个变量名。

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))+
  facet_grid(drv~cyl)

如果不想在行或列的维度进行分面，可以使用.来代替变量名，例如+facet_grid(.~cyl)

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))+
  facet_grid(.~cyl)

3.几何对象

几何对象是图中用来表示数据的几何图形对象。我们经常根据图中使用的几何对象类型来描述相应的图。例如条形图使用了条形几何对象，折线图使用了直线几何对象，箱线图使用了矩形和直线几何对象。散点图打破了这种趋势，它们使用了点几何对象。

对比看一下，散点图和平滑曲线图

ggplot(data = mpg)+
  geom_point(mapping = aes(x = displ,y = hwy))

ggplot(data = mpg)+
  geom_smooth(mapping = aes(x = displ,y = hwy))

geom_smooth()函数可以按照不同的线型绘制出不同的曲线，每条曲线对应映射到线型的变量的一个唯一值：

ggplot(data = mpg)+
  geom_smooth(mapping = aes(x = displ,y = hwy,linetype = drv))

如何设置全局映射：

ggplot(data = mpg,mapping = aes(x = displ,y = hwy))+
  geom_point()+
  geom_smooth()

这样ggplot2会将这些映射作为全局映射应用到图中的每个几何对象中。此外，如果将映射放在几何对象函数中，那么ggplot2会将其看作这个图层的局部映射，它将使用这些映射扩展或覆盖全局映射，但仅对该图层有效。

ggplot(data = mpg,mapping = aes(x = displ,y = hwy))+
  geom_point(mapping = aes(color = class))+
  geom_smooth()

geom_smooth()函数中的局部数据参数覆盖了ggplot()函数中的全局数据参数：

ggplot(data = mpg,mapping = aes(x = displ,y = hwy))+
  geom_point(mapping = aes(color = class))+
  geom_smooth(
    data = filter(mpg,class == "subcompact"),
    se = FALSE
  )

filter函数选出calss=subcompact的数据，se=F不显示置信去间

4.统计变换

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut))

条形图、直方图和频率多边形图可以对数据进行分箱，然后绘制出分箱数量和落在每个分箱的数据点的数量。

平滑曲线会为数据拟合一个模型，然后绘制出模型预测值

箱线图可以计算出数据分布的多种摘要统计量，并显示一个特殊形式的箱体。

绘图时用来计算新数据的算法称为stat(statistical transformation,统计变换)，我们可以查看帮助文档，获取目标几何对象用了那种统计变换。

通常来说，几何对象函数和统计变换函数可以互换使用。例如，你可以使用stat_count()替换geom_bar()来重新生成前面那张图：

ggplot(data = diamonds)+
  stat_count(mapping = aes(x = cut))

但是有些时候我们使用的集合对象不需要统计变化，而是用已有的数据代替统计变换的结果，可以将统计变换的计数count设置为表示identity：

demo<- tribble(
  ~a,     ~b,
  "bar_1",20,
  "bar_2",30,
  "bar_3",40
)
ggplot(data = demo)+
  geom_bar(
    mapping = aes(x = a,y = b),stat = "identity"
    )

又或者你需要显示比例，而不是计数

ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,y = ..prop..,group = 1)
  )

你可能想要在代码中强调统计变换。例如，你可以是用stat_summary()函数将人们注意力吸引到你计算出的哪些摘要统计量上。stat_summary()函数为x的每个唯一值计算y值的摘要统计：

ggplot(data = diamonds)+
  stat_summary(
    mapping = aes(x = cut,y = depth),
      fun.ymin = min,
      fun.ymax = max,
      fun.y = median
  )

比较一下下面没有group=1的

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,y = ..prop..))
ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,fill = color,y = ..prop..)
  )

5.位置调整

color或者fill为条形图上色，前者边框，后者填充

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,color = cut))
ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,fill = cut))

如果将fill图形属性映射到另一个变量(如clarity),那么条形会自动分块堆叠起来。每个彩色矩形表示cut和clarity的一种组合。

ggplot(data = diamonds)+
  geom_bar(mapping = aes(x = cut,fill = clarity))

position参数设定的位置调整功能,有三个选项：identity,fill,dodge

position = "identity"将每个对象直接显示在图中。这种方式不太适合条形图，因为条形会彼此重叠。为了让重叠部分能够显示出来，我们可以设置alpha参数为一个较小的数，从而使得条型略微透明；或者设定fill=NA，让条形完全透明：

ggplot(
  data = diamonds,mapping = aes(x = cut,fill = clarity)
)+
  geom_bar(alpha = 1/5,position = "identity")
ggplot(
  data = diamonds,
  mapping = aes(x= cut,color= clarity)
)+
  geom_bar(fill= NA,position = "identity")

position="fill"的效果与堆叠相似，但每组堆叠条形具有相同的高度，因此这种条形图可以非常轻松地表较各组间地比例：

ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x =cut,fill = clarity),
    position = "fill"
  )

position="dodge"将每组地条形一次并列放置这样可以非常轻松地比较每个条形表示的具体数值：

ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,fill = clarity),
    position = "dodge"
  )

另外，对于散点图，绘制时候，往往会对值进行舍入取整，所以这些点显示在一个网格上时，很多点彼此重叠了，这个问题叫做过绘制。我们可以通过将位置调整方式设为“抖动”，可以避免这种网格化排列。position="jitter"为每个点添加一个很小地随机扰动。尽管会损失图形地精确性，但可以大大提高图形的启发性。

ggplot(data = mpg)+
  geom_point(
    mapping = aes(x = displ,y = hwy),
    position = "jitter"
  )

也可通过geom_jitter()快速实现

ggplot(data = mpg)+
  geom_jitter(
    mapping = aes(x = displ,y = hwy),
  )

6.坐标轴

coord_flip()函数可以交换x轴和Y轴。

ggplot(data = mpg,mapping = aes(x=class,y = hwy))+
  geom_boxplot()
ggplot(data = mpg,mapping = aes(x = class,y = hwy))+
  geom_boxplot()+
  coord_flip()

coord_quickmap()函数可以为地图设置合适的纵横比，当使用ggplot2绘制空间数据时，这个函数特别中还要。

nz<-map_data("nz")

ggplot(nz,aes(long,lat,group= group))+
  geom_polygon(fill= "white",color="black")
ggplot(nz,aes(long,lat,group= group))+
  geom_polygon(fill= "white",color="black")+
  coord_quickmap()

coord_polar()函数使用极坐标系。极坐标系可以揭示出条形图和鸡冠花图间的一种有趣联系：

bar<-ggplot(data = diamonds)+
  geom_bar(
    mapping = aes(x = cut,fill=cut),
    show.legend = FALSE,
    width = 1
  )+
  theme(aspect.ratio = 1)+
  labs(x = NULL,y = NULL)

bar+ coord_flip()
bar+ coord_polar()

第1章-使用ggplot2进行数据可视化

如果想要明确指出某个函数（或数据集）的来源，那么可以使用特殊语法形式package::function()。例如，ggplot2::ggplot()明确指出了我们使用的是ggplot包中的ggplot()函数

在ggplot2中，你可以使用函数ggplot()函数开始绘图.ggplot()创建了一个坐标系，你可以在它上面添加图层。ggplot()的第一个参数是要在图中使用的数据集。ggplot(data=mpg)会创建一张空白图。

向ggplot中添加一个或多个图层就可以完成这张图。函数geom_point()向图中添加一个点层，这样就可以创建一张散点图。ggplot2中包含了多种集合对象函数，每种函数都可以向图中添加不同类型的图层。

1.绘图模板

更改图形属性：颜色，大小，形状

color参数设定颜色

也可手动设定，只需把color参数一道aes()外

ggplot2会自动为每个变量值分配唯一的图形属性水平，这个过程称为标度变换

size参数设定大小

alpha参数设定数据点透明度

shape参数设定数据点形状

注意：ggplot2只能同时使用6种形状。默认情况下，当使用这种图形属性时，多出的变量值将不会出现在图中

2.分面

单个变量分面:可以使用函数facet_wrap()。其第一个参数是一个公式，创建公式的方式是在~符号后面加一个变量名。此外，传递给facet_wrap()的变量应该是离散型的

两个变量分面：需要使用函数facet_grid()。这个函数的第一个参数也是公式，但该公式包含由~隔开的两个变量名。

如果不想在行或列的维度进行分面，可以使用.来代替变量名，例如+facet_grid(.~cyl)

3.几何对象

对比看一下，散点图和平滑曲线图

geom_smooth()函数可以按照不同的线型绘制出不同的曲线，每条曲线对应映射到线型的变量的一个唯一值：

如何设置全局映射：

这样ggplot2会将这些映射作为全局映射应用到图中的每个几何对象中。此外，如果将映射放在几何对象函数中，那么ggplot2会将其看作这个图层的局部映射，它将使用这些映射扩展或覆盖全局映射，但仅对该图层有效。

geom_smooth()函数中的局部数据参数覆盖了ggplot()函数中的全局数据参数：

filter函数选出calss=subcompact的数据，se=F不显示置信去间

4.统计变换

条形图、直方图和频率多边形图可以对数据进行分箱，然后绘制出分箱数量和落在每个分箱的数据点的数量。

平滑曲线会为数据拟合一个模型，然后绘制出模型预测值

箱线图可以计算出数据分布的多种摘要统计量，并显示一个特殊形式的箱体。

绘图时用来计算新数据的算法称为stat(statistical transformation,统计变换)，我们可以查看帮助文档，获取目标几何对象用了那种统计变换。

通常来说，几何对象函数和统计变换函数可以互换使用。例如，你可以使用stat_count()替换geom_bar()来重新生成前面那张图：

但是有些时候我们使用的集合对象不需要统计变化，而是用已有的数据代替统计变换的结果，可以将统计变换的计数count设置为表示identity：

又或者你需要显示比例，而不是计数

你可能想要在代码中强调统计变换。例如，你可以是用stat_summary()函数将人们注意力吸引到你计算出的哪些摘要统计量上。stat_summary()函数为x的每个唯一值计算y值的摘要统计：

比较一下下面没有group=1的

5.位置调整

color或者fill为条形图上色，前者边框，后者填充

如果将fill图形属性映射到另一个变量(如clarity),那么条形会自动分块堆叠起来。每个彩色矩形表示cut和clarity的一种组合。

position参数设定的位置调整功能,有三个选项：identity,fill,dodge

position="fill"的效果与堆叠相似，但每组堆叠条形具有相同的高度，因此这种条形图可以非常轻松地表较各组间地比例：

position="dodge"将每组地条形一次并列放置这样可以非常轻松地比较每个条形表示的具体数值：

也可通过geom_jitter()快速实现

6.坐标轴

coord_flip()函数可以交换x轴和Y轴。

coord_quickmap()函数可以为地图设置合适的纵横比，当使用ggplot2绘制空间数据时，这个函数特别中还要。

coord_polar()函数使用极坐标系。极坐标系可以揭示出条形图和鸡冠花图间的一种有趣联系：

参考《R数据科学》