rna-seq定量分析流程

started 12/05/2020

rna-seq公司测出来的真是玄学数据,或许是重复测得太少了,反正测出来重复率都不是很好,这次重新分析,去掉两个不太好的重复之后再进行定量分析,记录一下流程。

从read比对结果中获取定量数据

现在我手头已经有公司质控过后的raw data,并且也已经通过hisat2和samtools拿到了bam文件,想进一步进行定量分析,首先需要对基因(转录本)的表达进行定量,我觉得这样说得很合适(出自subread的user guide)

Sequencing reads often need to be assigned to genomic features of interest after they are mapped to the reference genome. This process is often called read summarization or read quantification. Read summarization is required by a number of downstream analyses such as gene expression analysis and histone modification analysis. The output of read summarization is a count table, in which the number of reads assigned to each feature in each library is recorded.

本次使用的是Subread下的featureCounts软件,其对自己的描述是这样的:

featureCounts is a highly efficient general-purpose read summarization program that counts mapped reads for genomic features such as genes, exons, promoter, gene bodies, genomic bins and chromosomal locations. It can be used to count both RNA-seq and genomic DNA-seq reads.

就是一个帮我们数read的功能,当然它数read是有它自己的思路的,这里建议manual找到第六大节自己看:
http://bioinf.wehi.edu.au/subread-package/SubreadUsersGuide.pdf

然后一行命令:

featureCounts -a genome.gtf -o counts.txt WT_r1.bam WT_r2.bam S1_r2.bam S1_r3.bam 

获得reads统计的结果

通过DEseq2来进行差异表达分析

因为之前r出了问题,我把所有的包还有r都删除重装了,现在要从bioconductor重新装
最新的bioconductor装包的流程已经简单了很多

install.packages("BiocManager")
BiocManager::install("DESeq2")

无数的依赖包一起倾泻在了我的小mac上,然后安装完毕
之前用得都比较随意,没有去好好看过DESeq2的计算原理,现在开始慢慢地啃mannul

mannul看着是相当的痛苦,主要是功能太复杂,而我的需求和脑子太简单,先把最简单的流程过出来差异基因拿到手再说,代码如下

library(DESeq2)
visetwd("./deseq2")
#注意,此处输入的counts.txt是由featurecounts的输出结果删除第一行,再删除左上角的geneid栏得到的
count_data<-read.table("counts.txt",header = TRUE)
count_data<-count_data[,6:9]
condition<-factor(c("WT","WT","S1","S1"))
dds <- DESeqDataSetFromMatrix(count_data,DataFrame(condition),design = ~ condition)
nrow(dds)
dds <- dds[ rowSums(counts(dds)) > 1, ]
nrow(dds)
dds <- DESeq(dds)
res <- results(dds)
summary(res)
write.table(res,file="All_results.txt",sep = "\t")

(果然之后也没有再去看模型就开始往下走了,我感觉师姐毕业有一丝危险)

差异表达基因的GO富集分析

非常简单,即将自己的差异表达基因列表丢到agrigo的在线分析网站里即可
#注意使用agri2.0不要跑到1.0的网站去了
#注意自己输入的基因的格式(基因组不同等),不同的格式注释情况不一样跑出来的go结果还差别蛮大的,如果是在水稻里做,可以用我之前自己制作的非常粗糙的两个基因组对照的dictionary,百度云链接放在下面:

链接:https://pan.baidu.com/s/1L8cvEOU8L4KyFu2E2hGdrQ 密码:umol

拿到了GO的富集表,就可以自己画图然后无中生有一两个results了。。唉。。。结果真差啊。。。想哭

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容