刘小泽写于19.1.25
最近要开始一批无参转录组学习,我喜欢在学东西时先学一些知识储备,现在不太喜欢拿来代码直接去跑,可能对背后的原理性东西想要做更多了解了。比如这个结果是怎么得到的?怎么看懂结果?我怎么才可以根据自己的需要获得部分结果。这些都需要很长的时间去积累,而流程,只要调试好就可以去跑,但即使不报错的结果也未必是对的,这一点需要注意
先上文章
综述类:
- A survey of best practices for RNA-seq data analysis
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8 -
De novo transcript sequence reconstruction from RNA-Seq: reference generation and analysis with Trinity
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3875132/ - RNAseq data analysis from data carpentry
- Great introduction of RNA-seq from sample preparation to data analysis
RNA-seqlopedia - RNA-seq differential expression & pathway analysis with Sailfish, DESeq2, GAGE, and Pathview
细节类:
关于样本数量:How many biological replicates are needed in an RNA-seq
experiment and which differential expression tool should
you use?
https://www.ncbi.nlm.nih.gov/pubmed/27022035后续标准化、定量、差异分析:
Genome-wide repressive capacity of promoter DNA methylation is revealed through epigenomic manipulation不比对直接定量:sleuth 、Kallisto 、Salmon: the sucessor of Salfish ~ Accurate, Versatile and Ultrafast Quantification from RNA-seq Data using Lightweight-Alignment.
转录组分析前期
这部分内容是测序公司经常说的内容,主要考虑以下三点
生物学重复的数量:至少三个以上的生物学重复
-
文库类型:
-
mRNA片段如何获取?
第一种:真核生物成熟的mRNA一般带有polyA尾巴,一般方式就是对具有PolyA尾巴的片段进行捕获。这种方法对mRNA的完整性要求比较高,如果样本发生了降解,那么就会丢失一定的转录组信息
第二种:去除Total RNA中占比很高(超过90%)的rRNA,剩下的RNA中就有mRNA(约1-2%)。样本降解的影响比第一种要小,但需要更高的测序数据量因此成本会高【同时由于原核的mRNA没有polyA,所以只能用去除rRNA的方式】 -
是否需要链特异性文库?
因为现在虽然是叫RNA-seq,但其实还是需要RNA反转录成cDNA然后扩增进行测序,最后是测得还是ATCG。
第一种:利用普通文库。这种方法会同时测到模板链以及反向互补链的信息,不能判断原来的mRNA是什么方向(正链还是负链),既然确定链的来源有偏差,那么也对转录本的定量产生了影响
第二种:利用链特异性文库。这种方法可以将建库过程产生的反向互补序列的文库直接去除掉,可以确定mRNA的来源链,转录本定量的准确性会更高
-
mRNA片段如何获取?
-
测序深度:
主要考虑目标转录组的复杂度。低丰度的转录本的定量需要更高的测序深度,但是过高的测序深度也会带来转录本噪声。一般的测序结果中利用饱和曲线可以较好的评估测序深度是否合适
先研究研究流程、文章,最主要用的还是基于比对进行定量的trinity以及不基于比对进行定量的sleuth、kallisto,下一步开始介绍Trinity的使用,这可是一个非常大的套件