重生之我在剑桥大学学习单细胞RNA-seq分析——2. scRNA-Seq原始测序数据处理(1)

2.1 参考基因组及其注释
大多数scRNA-seq实验都是使用人类或小鼠组织、类器官或细胞培养物进行的。尽管这些基因组的初稿大约在20年前就已发布,但组装和注释的更新却相当频繁。有两种流行的组装文件来源:UCSC(其组装名为hg19、hg38、mm10等)和GRC(GRCh37、GRCh38、GRCm38)。UCSC和GRC组装的主要版本在主染色体上是匹配的(例如,来自hg38的chr1=来自GRCh38的chr1),但在额外的contig和所谓的ALT基因座上有所不同,这些基因座在次要版本之间会发生变化(例如,GRCh38.p13)。基因组组装通常以fasta文件的形式分发——这是一种包含序列名称和序列的简单文本文件。
基因组注释过程包括定义基因组的转录区域(基因),以及用外显子-内含子边界注释精确的转录本,并为新定义的特征分配类型,例如编码蛋白质、非编码等。下面的例子显示一个具有5个转录本的基因:3个蛋白质编码(红色)和2个非编码(蓝色)。基因组注释通常以GTF或GFF3文件格式提供,它们按层次结构组织。每个基因由一个唯一的基因ID定义;每个转录本由一个唯一的转录本ID及其所属的基因定义。外显子、UTR和编码序列依次分配给特定的转录本。

典型真核基因的转录本和内含子-外显子结构

人类和小鼠基因组注释的普遍来源是RefSeq、ENSEMBL和GENCODE。RefSeq是三者中最保守的,并且每个基因的注释转录本数量往往最少。RefSeq转录本ID以NM_或NR开头,例如NM_12345。ENSEMBL和GENCODE非常相似,可以互换使用。其中基因名称以ENSG(人类)和ENSMUSG(小鼠)开头;转录本分别以ENST和ENSMUST开头。
除了基因ID之外,大多数基因还具有分配给它们的通用名称(“gene symbol”);例如,人类肌动蛋白B的ENSEMBL基因ID为ENSG00000075624,名称为ACTB。人类基因名称由HGNC定期更新和定义,小鼠基因名称由类似的联盟MGI决定。
目前ENSEMBL/GENCODE对人类基因组的注释含有大约60k个基因,其中20k是蛋白质编码基因,还有237k个转录本。大多数基因根据类型可粗略分为蛋白质编码基因、长链非编码RNA、短链非编码RNA和假基因。在更高的分辨率下,定义了超过40种类型(biotype)。基因类型注释在注释版本之间也经常发生变化。

GENCODE版本中基因类型变化的桑基图

2.2 Bulk RNA-seq和全长scRNA-seq数据的处理
Bulk RNA-seq的原始read处理通常分两个步骤完成:read比对和read计数。这两个步骤都可能严重影响单个基因的表达估计。可以针对参考基因组或转录组进行read比对。由于动物基因组中存在广泛的剪接,因此必须使用剪接感知的比对软件对基因组进行read比对;两种最流行的工具是STAR和hisat2。典型的read覆盖率如下图A所示;请注意,read覆盖率在给定基因的3’和5’端相对均匀。一些read与1个以上的位置完美比对;这些read通常被称为多比对。与转录组比对时,模糊性要大得多,因为许多转录本彼此非常相似;然而,即使在基因水平上,模糊性也是显而易见的(下图B)。

A:Bulk RNA测序或Smart-seq2中的典型read覆盖率;B:将read分配给基因时出现的歧义类型

与基因组或转录组比对后,可以按基因或转录本水平汇总read计数。在基因组比对中,最简单的策略是仅计算比对到唯一位置(非多比对)并且仅与一个基因重叠的read。然而,这不可避免地会造成基因表达估计的偏差(Pachter,2011)。稍微高级一些的策略包括在比对上的基因之间分割read计数(例如,如果read与3个旁系同源基因都比对上,则每个旁系同源物获得⅓的计数)。当重叠位置位于反义链上时,链特异性RNA测序可以减少read分配的模糊性。可以有效实现上述所有计数方法的程序的一个示例是Subread包中的featureCounts。
当使用转录组比对时,read分配歧义太大,无法进行简单计数。因此,使用期望最大化(EM)算法的最大似然丰度估计来计算每个转录本和每个基因的丰度。这种方法可以将不同比例的read分配给它所比对的基因,从而大大减少与多比对相关的偏差。然后在基因水平上总结分配给转录本的read(和read分数)。实施该策略的最广泛使用和支持良好的程序是RSEM。一般来说,这是Bulk RNA测序定量最准确的方法(Pachter,2011)。
上述传统方法(比对,然后定量)的替代方法基于所谓的伪比对方法。两种常见的工具kallisto和salmon采用非常相似的方法:

  • 将参考转录组拆分为k-mers并制作De Bruijn图;
  • 将RNA-seq read转换为k-mers;
  • 使用k-mers将read分配给一个或多个转录本(“等价类”);
  • 在转录本或基因水平上总结结果计数。
    期望最大化算法用于寻找比对到多个转录本的read的最佳分布。这两种工具的内存和CPU效率都极高,而且非常准确,尤其是对于双端或长单端read。伪比对不会生成比对BAM文件,因此如果需要可视化,也应单独进行比对。
与转录组De Bruijn图的伪比对

关于bulk RNA测序定量,有几点需要注意。首先,通常假设测序的cDNA片段的数量与细胞中存在的RNA量成正比。因此,当使用双端read时,每个read对仅计数一次,因为它源自相同的cDNA片段。对于像人类和小鼠这样注释良好的基因组,使用单端read进行RNA测序是非常常见的。其次,在bulk RNA测序中,PCR重复通常会被忽略,而且UMI的使用也不会带来实质性的好处。几项独立研究表明,重复删除或使用UMI并不能明显提高bulk RNA测序的统计能力。
最后,虽然许多筛选差异表达的方法使用原始read计数,但在进行聚类、PCA和其他类型的探索性分析时通常使用样本内标准化。这种标准化的最流行方法是将原始read转换为TPM。转换考虑了两个偏差:1)不同样本的测序深度不同,与基因表达差异无直接关系;2)长基因预计会比短基因产生更多的cDNA片段。因此,对于TPM计算,原始read计数首先除以有效转录本长度,其定义为转录本长度-cDNA片段大小+1。此后,结果值按线性比例缩放,总计为一百万。因此,特定样本的所有TPM值的总和始终等于(约)1,000,000。

往期内容:
重生之我在剑桥大学学习单细胞RNA-seq分析——1. 单细胞RNA测序介绍(1)
重生之我在剑桥大学学习单细胞RNA-seq分析——1. 单细胞RNA测序介绍(2)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容