1、基本图形
#测试数据接上部分
library(ggplot2)
##geom_histogram
#geom_histogram(
# stat = "bin", #数据的统计方式:按窗口统计
# binwidth = NULL, #窗口大小
# bins = NULL, #分成多少个窗口
# mapping = NULL, #y轴是什么,数目..count.. ?密度..density..
#)
p1 <- ggplot(data = gene_len)
#第一种方法做直方图
p1+geom_histogram(stat = "bin",
bins = 100,
binwidth = 200,
aes(x = Length, y = ..count..))
#第二种方法
p1 + stat_bin(binwidth = 200,
geom = "bar",
aes(x=Length, y=..count..))
总结:统计变换和几何对象是ggplot绘图的两个侧面,缺一不可;
每种几何对象,默认对应一种统计变换;
每种统计变换,默认对应一个几何对象。
最简单的统计变换:不做任何统计变换(stat="identity")
最简单的几何对象:散点图、条形图、折线图
##################################################
基本图形类型:两个变量、不需要统计变换
geom_point:散点图
geom_bar:条形图
geom_line:折线图
geom_area:面积图
geom_polygon:多边形图
geom_text:添加标签
##################################################
位置调整参数:
stack 将图形元素堆叠起来
dodge 避免重叠,并排放置
fill 堆叠图形元素并将高度标准化为1
identity 不做任何调整
jitter 给点添加扰动避免重合
stat = "identity"表示不做任何统计变换
##################################################
#准备数据
library(gridExtra)
source("pre_data.R")
dexp_small <- filter(dexp, Gene %in% paste("G", 1:5, sep = ""))
#背景图层
p <- ggplot(data = dexp_small, aes(x = Sample, y = Expression))
#geom_point:散点图
p_point <- p + geom_point(
stat = "identity",
aes(color = Gene),
position = "jitter") +
labs(title = "geom_point")
#geom_bar:条形图
p_bar <- p+geom_bar(
stat = "identity",
aes(fill=Gene),
position = "dodge") +
labs(title = "geom_bar")
#geom_line:折线图
p_line <- p + geom_line(
stat = "identity",
aes(color=Gene, group = Gene)) +
labs(title = "geom_line")
#geom_area
p_area <- p + geom_area(
stat = "identity",
aes(fill = Gene, group = Gene)) +
labs(title = "geom_area")
#geom_text:添加标签
p_text <- p + geom_point(
stat = "identity",
aes(color=Gene)) +
geom_text(
stat = "identity",
aes(label = round(Expression, digits = 1)),
# vjust垂直上调0.5
vjust = -0.5,
check_overlap = T) +
labs(title = "geom_text")
#图形整合起来
grid.arrange(p_point, p_bar, p_line, p_area, ncol =3)
2、单个变量的基本图形
示例 | 类型 | 统计变换 | 生成变量
Group |离散型 | stat_count| count, prop
Expression |连续型 | stat_bin | count, density
density = 占总体比例/宽度
第一步:统计变换
离散型变量 stat_count,直接计数
连续型变量 stat_bin,划分窗口再计数
第二步:绘制条形图
离散型变量 条形图 geom_bar
连续型变量 直方图 geom_histogram
连续型变量
dexp_small <- filter(dexp, Sample %in% paste("S", 1:3, sep = ""))
pc <- ggplot(data = dexp_small, aes(x =Expression))
#geom_histogram:直方图
pc_histogram <- pc + geom_histogram(
stat = "bin",
#bins = 30,
binwidth = 100,
#修改500这个值为边界和中心
#boundary = 500,
#center = 500,
#左端的闭区间
closed = "left",
#aes(fill = Sample),
position = "dodge"
) +
labs(title = "geom_histogram")
#查看使用的窗口大小
pc_histogram_data <- ggplot_build(pc_histogram)$data[[1]]
#geom_freqpoly:频率多边形
pc_frepoly <- pc + geom_freqpoly(
stat = "bin",
aes(color = Sample)
) +
labs(title = "geom_freqpoly")
#面积图:geom_area
pc_area <- pc + geom_area(
stat = "bin",
aes(fill=Sample),
alpha=5/10,
position = "dodge"
) +
labs(title = "geom_area")
离散型变量
pd <- ggplot(data = group, aes(x = Group))
#条形图:geom_bar
pd_bar <- pd + geom_bar(
stat = "count",
aes(fill=Group)
) +
labs(title = "geom_bar")
grid.arrange(pc_area, pc_frepoly, pc_histogram, pc_frepoly, ncol=2)
#密度图、箱线图、小提琴图
library(ggplot2)
library(gridExtra)
source("pre_data.R")
p <- ggplot(data = dexp)
##密度图
p_density <- p + geom_density(
aes(Expression, color = Sample)
)
##箱线图
p_boxplot <- p + geom_boxplot(
aes(x=Sample, y = Expression, color=Group)
)
#对于向量和矩阵,[]和[[]]基本上一样;
#但对于列表list,如[3],相当于提取列表中的第3个子表的整体,输出结果还是个列表list;而[[3]]相当于直接提取第3个子表中的所有元素,输出结果就是数列或字符串或向量等与其中元素类型一致的东西。
#实际中,对于列表,尽量采用[[]]直接提取其中的元素对象,不容易出错。
data_boxplot <- ggplot_build(p_boxplot)$data[[1]]
##小提琴图
p_violin <- p + geom_violin(
aes(x=Sample, y = Expression, fill = Group)
)
grid.arrange(p_boxplot, p_density, p_violin, ncol=2)