转录组解释转载

三四十页的转录组的测序报告不知该如何入手,众多分析结果不知该关注哪些?今天我们就从RPKM到KEGG,慢慢给你讲解。


01 什么是RPKM值?

02 如何看懂火山图?

03 MA plot和火山图有什么区别?

04 为什么要做主成分分析?

05  从热图寻找差异基因

06 GO富集分析的作用

07 KEGG Pathway富集分析

08 KEGG代谢通路图

09 总结:我们能通过转录组测序获得哪些信息?


01 什么是RPKM值?

RPKM值用于衡量基因的表达量,在转录组测序结题报告中的表达量的比较分析均以RPKM值为基础。

RPKM的定义:

RPKM是Reads Per Kilobase per Million mapped reads的缩写,代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将比对到基因的read数除以比对到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。

其公式为:

为什么选择RPKM?

在衡量基因表达量时,若是单纯以比对到的read数来计算基因的表达量,在统计上是不合理的。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表达量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表达量。

RPKM值能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。

当然,RPKM值只是量化基因表达的方式之一,除此之外还有FPKM、TPM等方式。

02 如何看懂火山图?

转录组测序最重要的目的就是寻找差异表达基因。标准的火山图(volcano plot)常用于展示显著差异表达的基因。

上图中,每个点代表一个基因,横轴代表基因在不同样本中表达倍数的变化,横坐标是log2(Fold Change),纵轴代表基因表达量变化差异的统计学显著性,纵坐标是-log10(P value)。

通常将基因表达变化2倍作为差异表达的阈值,在图中就是平行于Y轴的两条线X=1和X=-1,在X=-1左侧的点是下调超过2倍的基因,在X=1右侧的点是上调超过2倍的基因。此外,平行于X轴有一条虚线Y=1.30,即-log10(0.05),在虚线上方的点表示有显著性,因此在X=1右侧、Y=1.30上方的点(红色的点)就是表达量显著上调的基因,在X=-1左侧、Y=1.30上方的点(绿色的点)就是表达量显著下调的基因,此外,一些关注的基因还会标出基因名称。

03 MA plot和火山图有什么区别?

MA plot看起来有点像躺着的火山图。MA plot中,纵坐标logFC(在火山图的介绍中已经解释过)是log2 (Fold Change),用于衡量基因表达上下调;横坐标则是logCPM 即log2(counts per million),用于衡量基因的表达量。

CPM即Counts Per Million,计算公式为CPM=C/N*1000000,设C为比对到 某个基因的 reads 数(read count),N 为比对到所有基因的总reads数。在某些情况下,我们只想了解每个基因被覆盖到的相对reads数,而不希望对其做长度校正,就会使用这个指标。

MA plot目前貌似还没有一个中文译名,但简而言之,它的X轴是基因在两个样本中的丰度平均值,Y轴表示基因表达差异。相比之下,MA plot充分展示了基因丰度和表达变化之间的关系。我们可以看到,蓝色两条线的上方和下方,分别代表上下调差异表达基因;越靠右下或者右上的点,就是丰度越高而且变化幅度越大的基因。

04 为什么要做主成分分析?

我们通过测序获得了大量的测量数据,用于分析基因表达规律。多变量大样本无疑会为我们的研究提供丰富的信息,但也在一定程度上增加了问题分析的复杂性,对分析带来不便。因此需要找到一个合理的方法,在减少需要分析变量的同时,避免原有信息的损失,以达到对所收集数据进行全面分析的目的。

主成分分析便是一种降维的方法,它将多个变量简化为少数、具有代表性的综合变量,以便于对整体基因表达情况进行描述、分析。通过主成分分析可以更直观的看到不同样本的整体差异。


在上图中,3种细胞(HCT116、MKN45、SGC7901,各3个重复)通过主成分分析,可以很明显的聚成3类。

05 从热图寻找差异基因

热图(heatmap)是对实验数据分布情况进行分析的直观可视化方法,可以用来进行基因表达差异的全局展示,还可以对数据和样品进行聚类。

热图中X轴表示不同样本,Y轴表示不同基因,每一个小方格表示某个样本的某个基因,方格的颜色表示基因的表达量的高低,如下图所示,红色表示高表达,绿色表示低表达,表达量越高或越低,颜色越红或越绿。要找差异基因,只需比较同一基因在不同样本对应的颜色差异即可。

热图同时还给出了样本和基因的聚类关系,如果关心样本(或基因)在检测到的表达量水平如何分类,相关关系如何,可以选择相应的条件聚类,也可以两者都选择。

由于完整的热图通常较大,不利于查找感兴趣的基因,也不利于展示研究关注的基因。可以进一步将基因上下调差异较显著的部分截取放大。


06 GO富集分析的作用

通过表达量分析,我们可以找到许多差异表达的基因,接下来想要找到这些差异基因的功能,可以对基因进行GO富集分析。

GO即Gene Ontology,http://www.geneontology.org,是一个将全世界所有与基因有关的研究结果进行分类汇总的综合数据库,利用GO 数据库,可以对于一个或一组基因按照其参与的BP(Biological Process, 生物过程)、MF(Molecular Function, 分子功能) 及CC(Cellular Component, 细胞组分) 三个方面进行分类注释。

GO注释有助于理解基因背后的生物学意义,即差异表达基因与哪些生物学功能相关。通过寻找哪些差异表达基因属于一个共同的GO功能分支,并用统计学方法检验结果是否具有统计学意义,从而得出差异表达基因主要参与了哪些生物功能或途径。

07  KEGG Pathway富集分析

KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息的数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。

与GO分析法(应用单个基因的GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用,即生物学通路。通过KEGG Pathway显著性富集能确定差异表达的基因参与了哪些生化代谢通路和信号转导通路,并通过统计学方法计算哪些通路与基因表达的变化最为相关。

在上面这张KEGG pathway富集图中,X轴表示富集的显著性(用-log10(P value)表示,该值越大说明富集越显著),Y轴表示富集的KEGG Terms(在GO富集图中则为GO Term),圆点大小表示该KEGG pathway包含的差异基因数目,圆点深浅表示Rich factor(富集因子),也就是富集的程度(Rich factor=输入的差异基因列表中富集到该pathway的基因数/该pathway的所有基因数)。

通俗的说就是,横轴越往右表示富集越显著,纵轴代表不同的信号通路,点越大表示富集到该通路的基因越多。该图表示与对照组相比,实验组中多数差异表达基因以高显著性富集到矿质元素吸收这条通路,说明实验组中某种处理主要影响了矿质元素的吸收。

08 KEGG代谢通路图

知道了差异表达基因主要富集到哪个通路之后,若想了解这些差异表达基因是如何影响这些通路所代表的代谢功能,我们可以对某一个代谢通路图进行分析。

如下图方框表示KEGG数据库中对于该通路的所有基因,红色标注为差异基因列表中富集到该特定生物学途径的基因,绿色框的基因产物都属于本次转录组所测物种含有的背景基因,白色框的基因产物表示不属于本次所测物种的基因。


图中小圆圈表示分子化合物(非蛋白),箭头表示化学反应,虚线箭头表示间接反应,+p、+u表示磷酸化、泛素化等修饰,具体如下图所示。这样就可以直接的看出差异表达基因是如何影响代谢功能了。


09  总结:我们能通过转录组测序获得哪些信息?

1.不同样品中差异表达的基因

2.不同样品的差异表达背后是哪些生物学功能或途径发生了变化

3.不同样品的生物学功能是怎样发生变化的(通过哪些通路调控)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容