1. RNAseq 简介

RNAseq 简介

RNA测序(RNA-seq)在过去十年里逐渐成为全转录组水平分析表达和研究mRNA差异剪接必不可少的工具,应用于如单细胞基因表达、RNA翻译(translatome),RNA结构组(structurome), RNA-RNA/RNA-Protein的相互作用、空间转录组学(spatialomics)等多种RNA层面的研究(R. Stark, Grzelak, and Hadfield 2019)。

其中表达水平的探究是转录组领域最热门和基础的方向:利用转录组数据来识别转录本和表达定量,从而对造成细胞/组织/个体间不同状态的差异的内部原因进行诊断分析,挖掘关键基因:

在不同背景下比较mRNA水平

  1. 同一物种,不同组织:研究基因在不同组织的表达情况,找到细胞组织特异性的基因;

  2. 同一物种,同一组织:研究基因在不同处理或条件下的表达变化,挖掘特异的功能基因,指导后续物种改良、疾病诊断等;

  3. 同一组织,不同物种:研究基因的进化关系;

  4. 时间序列实验:基因在不同时期的表达情况与其发育的关系,找到发育阶段特异性的基因;

基因分类

分析细胞特异,疾病相关,处理相关的基因表达模式,探究疾病状态相关的基因;

基因网络和通路

基因在细胞活动中的功能,基因间的相互作用。

基本workflow

  1. 分离所有mRNA

    • poly(A) 富集:需要提取到的RNA中含有高比例的mRNA

    • ribosomal depletion:rRNA在总RNA中占比高( 90 %),保守性也高,研究意义不大,还会影响鉴定其他类型RNA。

  2. 建库

    可以同时构建两种文库进行测序以获得多种RNA数据,即链特异性文库的长片段文库:将RNA打断测序,得到mRNA、lncRNA和circRNA;和Small RNA文库的短片段文库:得到miRNA、piRNA等。

    • short-read:cDNA合成 >> 接头连接 >> PCR扩增

    • long-read cDNA:cDNA合成 >> PCR扩增 >> SMRT文库

    • long-read direct RNA-seq

  3. 测序,质控: 10–30 million reads per sample

  4. 从头拼接(无参考基因组)、比对参考基因组

  5. 计数定量(基因水平、转录组水平、外显子水平)

    • 基因水平:括HTSeq-count, Rsubread(featureCounts), BEDTools, Qualimap, GenomicRange

    • 转录本水平:Cufflinks, StringTie,eXpress, Glimmer, IDP

    • 外显子水平:DEXSeq

    • alignment-free:

  6. 过滤和标准化(FPKM/RPKM/TPM)

  7. 差异表达分析

  8. 功能注释

  9. 功能富集分析

  10. 其他

    • 识别可变剪切

    • 融合基因检测

    • eQTL定位

整个分析流程在Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis中有比较详尽的描述。

图片

实验设计

RNA-seq实验可以运用于多种场景,例如病例与对照,野生型与突变,或疾病与正常比较。

对于不同的场景,可以使用Scotty等工具计算出测序深度和重复数之间的最佳权衡,一般来说三个重复是分析的最小样本量;此外,实验设计中存在的额外重复是一个非常强有力的保障,可以用于识别异常样本,并在具体分析时进行移除或权重减弱。

参考基因组和注释信息

测序后得到的是大量短reads,如果没有参考基因组,就需要从头组装(de novo)。如果目的物种的参考基因组已经组装好了,我们只需要把我们测得序列mapping回去就可以进行进一步分析。

常见数据库如:Ensembl, iGenomes, NCBI, and UCSC 的同版本参考基因组序列大致一样,但它们的注释和更新频率是不一样。总的来说:

  1. UCSC 的注释比较混乱,同样ID的基因会出现在不同链或不同染色体位置上。

  2. Ensembl 的注释通常比UCSC 更多(所以噪音更多一点),但ID处理的比较好,不会像UCSC的那么混乱,因此,它们的 ID 通常更容易转换成别的(如,基因名称、GO和pathway)。

  3. 另外,Ensembl还经常进行注释更新,因此可以方便地告诉别人你使用的版本,增强分析的可重复性。

结论:想要可重复性和稳健 - RefGene;希望得到更多的信息进行探索性研究 -Ensembl;对于Ensembl序列,选dna或者dna_ssm都可以;最好用primary_assembly,别碰 toplevel ;然后选择primary_assembly 对应的注释.gff3或.gtf即可。

数据标准化

由于测序reads间存在差异,此时需要对count进行校正,常见的校正方式有RPKM,FPKM,TPM and RSEM。

  1. RPKM 适用于单端测序

  2. FPKM 是RPKM的双端模式,将reads count 换为 Fragments count。

  3. TPM 基于上述方法,并将基因长度的分布纳入考量,可能更符合相对表达量的本质,适用于样本之间转录本分布不一致时(如,不同物种RNA-seq的比较)。

  4. DESeq: uses the negative binomial as the reference distribution and provides its own normalization approach.

  5. edgeR: input raw read counts and introduce possible bias sources into the statistical model to perform an integrated normalization.

批次效应

由于存在实际限制,Gnomic数据通常是分批产生的,但是技术变化和批间的差异(通常称为批效应)可能导致批间数据的显著异质性,从而导致不同技术处理批次数据的统计分布差异,并可能对下游生物分析产生不利影响。

批次间每个样本的整体表达分布的差异可以通过归一化方法进行校正,例如将原始计数转换为CPM、TPM或RPKM/FPKM的(对数)、M值的裁剪均值(TMM)或相对对数表达式(RLE)。然而,每个样本中基因的表达水平按总表达比例变化,不能通过归一化完全纠正(Zhang, Parmigiani, and Johnson 2020),此时我们可以利用RUVseq(R包)或ComBat-Seq(R包)进行处理。从而移除文库准备时造成的差异,提高了统计能力,并产生了更多有意义的差异基因。

References

Au, Kin Fai, Vittorio Sebastiano, Pegah Tootoonchi Afshar, Jens Durruthy Durruthy, Lawrence Lee, Brian A Williams, Harm van Bakel, et al. 2013. “Characterization of the Human Esc Transcriptome by Hybrid Sequencing.” Proceedings of the National Academy of Sciences 110 (50): E4821–E4830.
Djebali, S., V. Wucher, S. Foissac, C. Hitte, E. Corre, and T. Derrien. 2017. “Bioinformatics Pipeline for Transcriptome Sequencing Analysis.” Journal Article. Methods Mol Biol 1468: 201–19. https://doi.org/10.1007/978-1-4939-4035-6_14.
Pertea, Mihaela, Daehwan Kim, Geo M Pertea, Jeffrey T Leek, and Steven L Salzberg. 2016. “Transcript-Level Expression Analysis of Rna-Seq Experiments with Hisat, Stringtie and Ballgown.” Nature Protocols 11 (9): 1650.
Pertea, Mihaela, Geo M Pertea, Corina M Antonescu, Tsung-Cheng Chang, Joshua T Mendell, and Steven L Salzberg. 2015. “StringTie Enables Improved Reconstruction of a Transcriptome from Rna-Seq Reads.” Nature Biotechnology 33 (3): 290–95.
Sahraeian, Sayed Mohammad Ebrahim, Marghoob Mohiyuddin, Robert Sebra, Hagen Tilgner, Pegah T Afshar, Kin Fai Au, Narges Bani Asadi, et al. 2017. “Gaining Comprehensive Biological Insight into the Transcriptome by Performing a Broad-Spectrum Rna-Seq Analysis.” Nature Communications 8 (1): 1–15.
Stark, R., M. Grzelak, and J. Hadfield. 2019. “RNA Sequencing: The Teenage Years.” Journal Article. Nat Rev Genet 20 (11): 631–56. https://doi.org/10.1038/s41576-019-0150-2.
Trapnell, Cole, Brian A Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan, Marijke J Van Baren, Steven L Salzberg, Barbara J Wold, and Lior Pachter. 2010. “Transcript Assembly and Quantification by Rna-Seq Reveals Unannotated Transcripts and Isoform Switching During Cell Differentiation.” Nature Biotechnology 28 (5): 511–15.
Zhang, Yuqing, Giovanni Parmigiani, and W Evan Johnson. 2020. “ComBat-Seq: Batch Effect Adjustment for Rna-Seq Count Data.” bioRxiv.
Wu, H., Wang, C. & Wu, Z. PROPER: comprehensive power evaluation for differential expression using RNA- seq. Bioinformatics 31, 233–241 (2015). Gaye, A. Extending the R Library PROPER to enable power calculations for isoform- level analysis with EBSeq. Front. Genet. 7, 225 (2017). Scotty: http://scotty.genetics.utah.edu

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容