<meta charset="utf-8">
基因表达水平分析
一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度越高,则基因表达水平越高。在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了FPKM的概念,FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百万fragments中来自某一基因每千碱基长度的fragments数目,其同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法(Trapnell, Cole, et al., 2010)。
差异表达分析
通过所有基因的FPKM分布图以及盒形图对不同实验条件下的基因表达水平进行比较。对于同一实验条件下的重复样品,最终的FPKM为所有重复数据的平均值。
基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品,我们采用DESeq(Anders et al, 2010)进行分析:
该分析方法基于的模型是负二项分布,第 i 个基因在第 j 个样本中的 read count 值为Kij,则有Kij ~ NB(µij,σij2)
对于无生物学重复的样品,先采用TMM对read count数据进行标准化处理,之后用DEGseq进行差异分析。差异表达基因列表如下:
用火山图可以推断差异基因的整体分布情况,对于无生物学重复的实验,为消除生物学变异,从差异倍数和显著水平两个方面进行评估,对差异基因进行筛选,
阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有生物学重复的实验,由于DESeq已经进行了生物学变异的消除,我们对差异基因筛选的标准一般为:
padj < 0.05。
差异基因维恩图
差异基因维恩图展示了各比较组间差异基因的个数,以及比较组间的重叠关系。
差异基因聚类分析
聚类分析用于判断差异基因在不同实验条件下的表达模式;通过将表达模式相同或相近的基因聚集成类,从而识别未知基因的功能或已知基因的未知功能;因为这些同类的基因可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的FPKM值为表达水平,做层次聚类(hierarchical clustering)分析,不同颜色的区域代表不同的聚类分组信息,同组内的基因表达模式相近,可能具有相似的功能或参与相同的生物学过程。
作者:湖红点鲑
链接:https://www.jianshu.com/p/60332be9cef2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。