探索多个变量

getwd()
list.files()
pf <- read.csv('pseudo_facebook.tsv',sep='\t')

Third Qualitative Variable

在以性别为分类的年龄箱线图中,加入每个性别的平均年龄
原箱线图:

ggplot(aes(x = gender, y = age),
       data = subset(pf, !is.na(gender))) + geom_boxplot()

添加后的箱线图:

ggplot(aes(x = gender, y = age),
       data = subset(pf, !is.na(gender))) + geom_boxplot()+
  stat_summary(fun.y=mean,geom='point',shape=4)

年龄、朋友数、性别三个变量:

ggplot(aes(x=age,y=friend_count),
       data=subset(pf,!is.na(gender)))+
  geom_line(aes(color=gender),stat='summary',fun.y=median)

按年龄和性别对数据进行分组,并计算每个组里的平均好友数,中位数好友数和每个组的数据条目数

detach("package:plyr", unload=TRUE)
library(dplyr)
pf.fc_by_age_gender <- pf %>%
  filter(!is.na(gender))%>%
  group_by(age,gender)%>%
  summarise(friend_count_mean = mean(friend_count),
            friend_count_median=median(as.numeric(friend_count)),
            n=n())%>%
  ungroup()%>%
  arrange(age)

head(pf.fc_by_age_gender)

用上面的分组创建图表

ggplot(aes(x=age,y=friend_count_median),data=pf.fc_by_age_gender)+
  geom_line(aes(color=gender))

Thinking in Ratios

女性用户的好友数是男性用户好友数的几倍?
要回答这个问题,先重塑我们的数据
pf.fc_by_age_gender是长格式数据,我们要把它转化成宽格式数据,
每一行包括:
年龄
对应该年龄的男性用户的好友数(中位数)
对应该年龄的女性用户的好友数(中位数)

library(reshape2)
pf.fc_by_age_gender.wide <- dcast(pf.fc_by_age_gender,
                                  age~gender,
                                  value.var = 'friend_count_median')
head(pf.fc_by_age_gender.wide)

函数dcast()中的d表示输出的数据结构为dataframe
如果要输出矩阵或者数组,应使用acast()


Ratio Plot

横轴:年龄
纵轴:男/女好友数的中位数

ggplot(aes(x=age,y=female/male),data=pf.fc_by_age_gender.wide)+
  geom_line()+
  geom_hline(yintercept = 1,alpha=0.3,linetype=2)

探索四个变量:年龄,性别,好友数,使用时长tenure

以2014为基准年,添加[加入时间]这个变量

pf$year_joined <- floor(2014-pf$tenure/365)

floor为向下取整,返回不大于该数字的最大整数

Cut a Variable

切割变量year_joined,分为以下几组:
2004-2009,2009-2011,2011-2012,2012-2014

summary(pf$year_joined)
table(pf$year_joined)
pf$year_joined.buckets <- cut(pf$year_joined,
                              c(2004,2009,2011,2012,2014))
table(pf$year_joined.buckets,useNA='ifany')

use variable year_joined.buckets to create a line graph

ggplot(aes(x=age,y=friend_count),
       data=subset(pf,!is.na(year_joined.buckets)))+
  geom_line(aes(color=year_joined.buckets),
            stat='summary',
            fun.y='median')

the parameter linetype can take the values 0-6:
0 = blank,
1 = solid,
2 = dashed
3 = dotted
4 = dotdash
5 = longdash
6 = twodash


Plot the Grand Mean

ggplot(aes(x=age,y=friend_count),
       data=subset(pf,!is.na(year_joined.buckets)))+
  geom_line(aes(color=year_joined.buckets),
            stat='summary',
            fun.y=mean)+
  geom_line(stat='summary',fun.y=mean,linetype=2)

Friending Rate

with(subset(pf,tenure>1),summary(friend_count/tenure))

Friendships Initiated

ggplot(aes(x=tenure,y=friendships_initiated/tenure),
       data=subset(pf,tenure>=1))+
  geom_line(stat='summary',aes(color=year_joined.buckets),fun.y=mean)

偏差-方差权衡


ggplot(aes(x = tenure, y = friendships_initiated / tenure),
       data = subset(pf, tenure >= 1)) +
  geom_line(aes(color = year_joined.buckets),
            stat = 'summary',
            fun.y = mean)

ggplot(aes(x = 7 * round(tenure / 7), y = friendships_initiated / tenure),
       data = subset(pf, tenure > 0)) +
  geom_line(aes(color = year_joined.buckets),
            stat = "summary",
            fun.y = mean)

ggplot(aes(x = 30 * round(tenure / 30), y = friendships_initiated / tenure),
       data = subset(pf, tenure > 0)) +
  geom_line(aes(color = year_joined.buckets),
            stat = "summary",
            fun.y = mean)

ggplot(aes(x = 90 * round(tenure / 90), y = friendships_initiated / tenure),
       data = subset(pf, tenure > 0)) +
  geom_line(aes(color = year_joined.buckets),
            stat = "summary",
            fun.y = mean)
ggplot(aes(x = tenure, y = friendships_initiated / tenure),
       data = subset(pf, tenure >= 1)) +
  geom_smooth(aes(color = year_joined.buckets))


the Yogurt Data Set

getwd()
yo <- read.csv("yogurt.csv")
View(yo)
yo$id <- factor(yo$id)
str(yo)

酸奶价格直方图

ggplot(aes(x=price),data=yo)+
  geom_histogram(fill=I('#FF6374'))

不同的酸奶价格

unique(yo$price)
length(unique(yo$price))
table(yo$price)

将一条购买记录中不同口味的酸奶数量加总,汇总成新变量all.purchases

names(yo)
yo <- transform(yo,all_purchases=strawberry+
                  blueberry+
                  pina.colada+
                  plain+mixed.berry)

all.purchases histogram

ggplot(aes(x=all_purchases),data=yo)+
  geom_histogram(binwidth=1)

随时间变化的价格

ggplot(aes(x=time,y=price),data=yo)+
  geom_jitter(alpha=1/10,shape=21,fill=I('#F79420'))
  

Sampling Observations

对于酸奶数据集,我们可能需要更详细地调查小样本的家庭


Looking at Samples of Households

set.seed(4230)
sample.ids <- sample(levels(yo$id),16)
sample.ids

ggplot(aes(x=time,y=price),
       data=subset(yo,id %in% sample.ids))+
  facet_wrap(~id)+
  geom_line()+
  geom_point(aes(size=all_purchases),pch=1)
    

Scatterplot Matrix 散点图矩阵

library(GGally)
theme_set(theme_minimal(20))
set.seed(1836)
pf_subset <- pf[,c(2:15)]
names(pf_subset)
ggpairs(pf_subset[sample.int(nrow(pf_subset),1000),])

set.seed确保得到可重复的结果


Even More Variables

nci <- read.table("nci.tsv")
colnames(nci)
colnames <-c(1:64)

Heat Maps

library(reshape2)
nci.long.samp <- melt(as.matrix(nci[1:200,]))
names(nci.long.samp) <- c("gene", "case", "value")
head(nci.long.samp)

ggplot(aes(y = gene, x = case, fill = value),
  data = nci.long.samp) +
  geom_tile() +
  scale_fill_gradientn(colours = colorRampPalette(c("blue", "red"))(100))

习题集

1.带有分面和颜色的价格直方图
scale_fill_brewer(type = 'qual')可以修改颜色的编码方式

data(diamonds)
View(diamonds)
ggplot(aes(x = price,fill=cut),
       data = diamonds) + 
  geom_histogram(bins=35) +
  facet_wrap(~ color) +
  scale_x_log10() +
  scale_fill_brewer(type = 'qual')

2.价格与按切工填色的表格

names(diamonds)
p1 <- ggplot(aes(x=table,y=price),data=diamonds)+
  geom_point(aes(color=cut))+
  scale_color_brewer(type = 'qual')+
  scale_x_continuous(breaks=seq(50,80,2),lim=c(50,80))

p2 <- ggplot(aes(x=table,y=price,fill=cut),data=diamonds)+
  geom_point(aes(color=cut))+
  scale_color_brewer(type = 'qual')+
  scale_x_continuous(breaks=seq(50,80,2),lim=c(50,80))

library(gridExtra)
grid.arrange(p1,p2)

3.价格与体积和钻石净度

diamonds$v = diamonds$x*diamonds$y*diamonds$z
ggplot(aes(x=v,y=price,fill=clarity),
       data=diamonds)+
  xlim(0,quantile(diamonds$v,0.99))+
  scale_y_log10()+
  geom_point(aes(color=clarity))+
  scale_color_brewer(type = 'div')

4.新建友谊的比例

pf$prop_initiated <- pf$friendships_initiated/pf$friend_count

5.prop_initiated 与使用时长

pf$year_joined <- floor(2014-pf$tenure/365)
pf$year_joined.buckets <- cut(pf$year_joined,
                              c(2004,2009,2011,2012,2014))

ggplot(aes(x=tenure,y=prop_initiated),
       data=na.omit(pf))+
  geom_line(aes(color=year_joined.buckets),
            stat='summary',
            fun.y=median)

ggplot(pf, aes(x=tenure, 
               y=prop_initiated, 
               color=year_joined.buckets)) +
  geom_line(stat='summary', fun.y=median, na.rm=TRUE)

ggplot(pf, aes(x=tenure, 
               y=prop_initiated, 
               color=year_joined.buckets)) +
  geom_line(stat='summary', fun.y=median, na.rm=TRUE)+
  geom_smooth()

6.最大的组均值 prop_initiated

with(pf,year_joined.buckets=)

with(subset(pf,!is.na(prop_initiated)&year_joined.buckets=='(2012,2014]'),
     mean(prop_initiated))
by(pf$prop_initiated,pf$year_joined.buckets,summary)

7.经过分组、分面和填色的价格/克拉

ggplot(aes(x=cut,y=price/carat),data=diamonds)+
  geom_jitter(aes(color=color))+
  facet_wrap(~clarity)+
  scale_color_brewer(type = 'div')
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容