学习小组Day5笔记--尹露茜

新手教程撸着撸着
感觉来了一点

(以下知识点均来源于生信星球)
注:#%>%是管道操作符,将第一个函数的结果输出为第二个结果的操作文件,可以少些重复。

今日主题两个包

tidyr

dplyr

tidyr的功能

(1)数据框的变形
(2)处理数据框中的空值
(3)根据一个表格衍生出其他表格
(4)实现行或列的分割和合并

建个表格

data.frame

a <- data.frame(country=c("A","B","C"),"1999"=paste(c (0.7,37,212),"K"),"2000"=paste(c(2,80,213),"K"))
重塑数据

reshape data ---gather/spread

gather(data,key,value,…,na.rm=FALSE, convert=FALSE, factor_key = FALSE)
spread(data,key, value, fill = NA, convert = FALSE, drop = TRUE, sep = NULL)
处理丢失的数据
drop_na(data,...) #有空值的删除整行
fill(data,..., direction = c("down", "up")) #根据上下文蒙一个
replace_na(data, replace = list(),...) #同一列的空值填上同一个数
分割合并

separate #按列分割
separate_rows #按行分割
unite #分割完了再合并回去

separate(data,col,into,sep = "", remove = TRUE, convert = FALSE, ...)
separate_rows(data,...,sep = "", convert = FALSE)
unite(data,col, ..., sep = "_", remove = TRUE)

dplyr的功能

对表格进行操作,操作格式必须是tidy data

arrange #排序

arrange(frame1,geneid) #这是刚才准备测试数据时写下的
arrange(frame1,geneid,expression)#在按col1排序的基础上,按col2排序
arrange(frame1,geneid,desc(expression))

filter #筛选

filter(frame1,expression>3)
filter(frame1,expression>3|geneid=="gene2")   #注意表示or或者。
filter(frame1,expression>3) %>% arrange(expression)  #筛选后排序

distinct #去除重复行

distinct(frame1,geneid)
distinct(frame1,geneid,Sampleid)

select #按列筛选

select(frame3,geneid,expression)  #选择特定两列
select(frame3,-Sampleid) #反选
select(frame3,contains("n"))  #列名包含n的列
select(frame3,starts_with("a"))  #以a开头的列

mutate #根据原有的列生成新的列

mutate(frame3,E=expression *10)  #生成新列E是expression列值的10倍
mutate(frame3,E=expression*10) %>% select(-expression)  #生成新列后去掉把原有的expression列
mutate(frame3,id=paste("ath",geneid,sep = "_")) %>% select(-geneid) #在列添加前缀ath
mutate(frame3,id=paste("ath",geneid,sep = "_")) %>% select(id,Sampleid,expression)  #和上一行本质上是一样的

summarise #对数据进行简单统计

frame3 %>% group_by(geneid)%>%summarise(avg=mean(expression))#按照geneid分组并求平均值(更有意义)

bind_rows #表格拼接(按行拼接)

rbind(frame1,frame4)
frame1 %>%bind_rows(frame4)

交集、并集、全集

intersect(frame1,frame4)
union(frame1,frame4)
union_all(frame1,frame4)

关联

right_join(frame1,frame2) #右连接--把表1添加到表2
inner_join(frame1,frame2) #内连接--只保留两个表格共有的行
by=c("col1"="col2") #当在两个表格中列名不一样时需要在括号内加-col1和2分别是在两个表格中的需合并的列名
semi_join #只保留第二个表格中包含的id
anti_join #只保留第二个表格中不包含的id
屏幕快照 2019-07-06 上午10.29.14.png
屏幕快照 2019-07-06 上午10.28.09.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343