从0开始的RNA-seq教程

本次RNA-seq分析目标明确,得到基因的表达矩阵即可,不涉及其他分析。

样本:植物的叶和茎的转录组;测序方法:双端测序;有参考基因组文件

1.数据质控
拿到测序数据,第一步进行md5检测,确定文件没有损坏。然后使用fastqc对测序数据进行质控,multiqc可以聚合多个qc结果进行展示。双端测序文件一般是两个,命名时一般会在末尾加上1,2加以区分。
从 SRA下载了raw data,质控很多人用fastqc,这里为了方便,我使用了fastp,直接生成过滤后的文件,省去了过滤的步骤,并且速度很快。

#SRA数据提取fastq文件,详细参数自行搜索
fastq-dump --gzip --split-e SRR_ID

#fastqc 命令
fastqc -t 8 -o out_path sample1_1.fq sample1_2.fq

#fastp命令  输入文件、输出文件、输入文件、输出文件、线程数
fastp -i  A1.fq.gz  -o fastp_A1.fq.gz -I A2.fq.gz -O fastp_A2.fq.gz -w 4

2.参考基因组和基因注释文件
我的样本特殊,有参考基因组和注释文件,但是注释文件不完善,只进行了基因的结构预测,并没有给gene_Id,所以要在后来的处理中花费额外的时间去做(第一个坑)。
从ncbi下载组装注释好的基因组。

3.序列比对

目的:这一步的目的是把测序的reads比对到参考基因组上。

RNA-Seq数据分析分为很多种,比如说找差异表达基因或寻找新的可变剪切。如果找差异表达基因单纯只需要确定不同的read计数就行的话,我们可以用bowtie, bwa这类比对工具,或者是salmon这类align-free工具,并且后者的速度更快。

但是如果你需要找到新的isoform,或者RNA的可变剪切,看看外显子使用差异的话,你就需要TopHat, HISAT2或者是STAR这类工具用于找到剪切位点。因为RNA-Seq不同于DNA-Seq,DNA在转录成mRNA的时候会把内含子部分去掉。所以mRNA反转的cDNA如果比对不到参考序列,会被分开,重新比对一次,判断中间是否有内含子。
链接:https://www.jianshu.com/p/681e02e7f9af

就唯一比对而言,STAR是三者最佳的,主要是因为它不会像TopHat和HISAT2一样在PE比对不上的情况还强行把SE也比对到基因组上。而且在处理较长的read和较短read的不同情况,STAR的稳定性也是最佳的。
就速度而言,HISAT2比STAR和TopHat2平均快上2.5~100倍
链接:https://www.jianshu.com/p/681e02e7f9af

工具:目前比较推荐的是hisat2,hisat2正确率高,当然总数量会降低,二类错误率低了,一类错误率就会高。STAR好像也行,但是我还是用了使用比较多的hisat2

正式开始:
①索引,为了提高比对效率,通过BWT算法对基因组建立索引去进行比对。有现成的就下载现成的,没有现成的就自己建一个索引(我用的服务器比较富裕,所以时间也没有很久,十几分钟吧)。hisat2快速上手教程

 # 其实hisat2-buld在运行的时候也会自己寻找exons和splice_sites,但是先做的目的是为了提高运行效率
 extract_exons.py gencode.v26lift37.annotation.sorted.gtf > hg19.exons.gtf 
 extract_splice_sites.py gencode.v26lift37.annotation.gtf > hg19.splice_sites.gtf 
 # 建立index, 必须选项是基因组所在文件路径和输出的前缀
 hisat2-build --ss hg19.splice_sites.gtf --exon hg19.exons.gtf genome/hg19/hg19.fa hg19

这里请注意一点,hisat2使用gtf文件生成exon和ss文件,gff文件不可以,所以要先把gff文件使用gffread转化成gtf格式。

②开始比对
③sam文件转换为bam文件并进行排序,建立索引
④bam文件质控(因为后续输入文件可以用sam文件,所以省去了转换格式那一步)


hisat2 -p 4 -x ../index/Rosa -1 A_1.fastq.gz -2 A_2.fastq.gz -S A.sam

4.reads计数

featurecounts 计数。

featureCounts -g transcript_id -Q 20 -p -B -C -T 4 -a corrected.gtf -o feature_counts T9_sorted.bam T10_sorted.bam T11_sorted.bam T12_sorted.bam  > feature_count.log   ###Q 进行质量过滤(hisat2的比对文件不要选择此选项)-p 双端测序 -B -C 只计算两条序列都比对上同一位置的序列  -T 线程

这里要说一下,目前FPKM和RPKM不被用来做差异分析,TPM和TMM标准化用来做差异分析的比较多,且DEseq的输入文件是标准化之前的,所以推荐featurecounts计数。

5.基因差异表达分析
6.富集分析

写在最后:
推荐的两篇综述文献(虽然很难读):(半年了我还没读)
①Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis
②A survey of best practices for RNA-seq data analysis

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352