单细胞的RNA-seq我从来没有接触过,所以要从头开始学习。但是用王院长的话就是:“不是和普通的RNA-seq差不多嘛!”。。。当然了,对于他那种专家级别的当然什么样的分析都是差不多的,但是对于我一个白的不能再白的小白来说,这是一块还比较复杂比较难啃的骨头。在网上搜了几篇文献,放在这篇文章里供需要的同学一起学习。这里只放了4篇文献,对于要深刻理解单细胞测序是远远不够的。前两篇我写的笔记比较详细,后两篇我只是非常简要的写了文章主要讲了些啥。
1.Single-cell RNA sequencing: Technical advancements and biological appications
这篇文章主要是对单细胞的RNA-seq做了一个很简单的介绍,包括这项技术的发展过程和几种测序的方法,以及每种方法的优点和缺点,还介绍了一些空间单细胞RNA-seq技术的介绍。但通篇没有深入的介绍分析过程。算是一篇比较浅显易懂的综述,篇幅也不长。
这里有一篇文章是对这篇文献的全文翻译:https://www.jianshu.com/p/72d300d1317a
我没仔细的看,直接下载了原文看,并且也只是标记了一些知识点,懒得看原文的同学可以直接移步上述这个链接。下面几点是我标注的知识点:
(1)单细胞RNA-seq方法主要分成4步:分离和裂解单细胞或单细胞核。反转录。cDNA的扩增。测序文库的准备。前三步都可以在同一个管子里进行,减少样品的损失,第4步是利用转座子Tn5为基础的片段来构建文库。
(2)应该选择什么方法,以及多少细胞来测序?单细胞主要分成两种:full-length和tag-based。而taf-based方法又分为两种:3'和5'.对于细胞类型的发现和组织成分的测定,full-length和tag-based方法都可以。如果是有特殊的需要,比如等位基因分析和不同的isoform的发现,full-length是最合适的。
(3)批次效应:批次效应主要由于样品的处理步骤,细胞的捕获和分别测序(不同深度),不同批次的试剂等等引入的。有一个方法可以查看数据是否有批次效应:PCA。另外,利用spike-in control(ERCC)也可以有效的降低批次效应。ERCC spike-in control是由一系列浓度的合成的不同长度的,不同GC含量的RNA组成,经常用来测量在RNAseq实验中的biases,并且用来做质量控制和标准化。
2.Design and computational analysis of single-cell RNA-sequencing experiments
这篇文章写的就比较详细和深入了,讲解了有关单细胞测序的实验设计需要注意的问题和分析过程中的关键步骤,但仍然没有涉及到具体的软件的使用和具体的代码。不过也不用着急,由浅及深的了解也不是什么坏事,把基础打打牢才是关键。
(1)实验设计
需要关心的问题是是否需要加spike-in control和特异分子标记(UMI),这两种方法理论上对标准化和基因表达的评估都有好处。实际操作上对单细胞测序有一定的限制性。比如Stegle的文章里提到,spike-in的对照通常加到单细胞测序的体系里浓度会很高,产生的结果就是它们会占去相对一大部分的reads。另外最近的droplet技术也不能容纳spike-in。UMI对于减少背景noise有很大的优势,但是加入UMI序列只在转录本的5'或者3'端,使得无法研究isoform或者等位基因的表达。
另外一个需要考虑的问题是测序的深度。现在比较一致的认为是大于1 million的reads,对于可靠的基因表达检测的变化就很小了。实际上,大部分基因可以在50万个reads检测出来,超过一半的基因25万个reads就足够了。另外,在Shalek的文章中提到,1个million的reads足够检测一个细胞群里基因表达的情况了。根据实验需要的不同,可能会需要更多的reads,比如完全鉴定转录本的结构,评估rare isoform的表达量,根据细微的差别区分细胞群。但是如果你需要map out一个大的细胞群,或者区分细胞类型,你需要少一些的reads,但是样品里的细胞数要足够多。在Pollen的文章中提到,301个细胞,5万个reads足够在一个样品里分类细胞类型。但如果你需要在一个异质性很高的细胞群里区分rare细胞群,那就需要提高Reads数。
(2)质量控制和基因表达评估
显微镜检查可以排除空的捕获位点和多细胞的捕获位点,但肉眼的检查不适用于所有的测序平台。所以一般使用FASTQC,Kraken,RNA-SeQC等软件对于reads进行质量控制。如果reads的最后几个碱基质量不好可以使用Trimming进行修剪。
另外一个评估的标准是reads比对到参考的转录组上。如果用了spike-in对照,reads比对到合成的转录本,占比对到内源性转录本的比例就可以计算出来。如果这个比例过高,说明在细胞的捕获阶段有细胞的破损。mapping的比例,在单细胞测序中通常较低(与bulk RNA-seq相比)。
拿到质量合格的reads结果,就可以比对了。一般用HTSeq,RSEM或者WemIQ进行比对。
(3)标准化
a)不涉及spike-in control的标准化
许多单细胞测序的研究使用中位数标准化,或者相似的方法。每一种方法都是鉴定那些在细胞间表达相对稳定的基因,然后利用那些基因计算global scale factor。但是这种方法是建立在“每一个细胞的RNA含量和测序深度都是差不多的”这一个假设基础上的。
b)涉及spike-in control的标准化
在单细胞测序里,每一个细胞的RNA含量都不是一样的,随着细胞周期,细胞大小,以及转录动力学的不同而变化。spike-in, 是合成的转录本,以已知的浓度加入样品中,可以用来估计RNA含量的相对差异。这一思路是根据spike-in观察到的和理论值之间的差异就是人为引入的因素,计算调节这些差异的细胞特异性的factor,在内源性的基因上利用这个factor,标准化基因表达。虽然很有帮助,但是仍然存在一些问题。所以spike-in control在单细胞测序里并不广泛的使用。UMI是另一种更有用的control,简单的说,就是在每一个分子上连接一个特异的标签,然后PCR扩增,使得每一个分子是特异性的,并且可以得到分子数量的绝对值。这种方法可以有效的降低单细胞测序的扩增noise。但这种方法无法研究isoform和等位基因的表达情况。
(4)细胞亚群的鉴定
单细胞测序最主要的目的有两个:细胞亚群的鉴定,特异基因的表达。先说细胞亚群的鉴定。单细胞测序的一个非线性降维法:t-SNE。在单细胞测序中,细胞间某一个基因的表达幅度变化很大是很常见的,利用PCA可能会造成错误的理解,因为存在很多零表达量。还有其他的一些降维方法,例如:ZIFA,SNN-Cliq,RaceID等。对于单细胞测序鉴定基因表达变化,很多研究者用的是常规RNA-seq的分析方法。
之后这篇文章还讲了一些算法的原理。。。奈何我刚开始接触单细胞测序的知识,看不懂那么深奥的东西,同学们可以自行阅读后面的部分。
(5)Network inference
阐述转录调节网络的结构和功能也是单细胞测序的核心研究部分。WGCNA(加权基因共表达网络分析)是常规RNA-seq分析中常用的方法,在胚胎细胞发育研究中也广泛应用。关于WGCNA的知识这篇文章里也没有具体的介绍。我搜了几篇有关这个知识点的文章,贴到下面:
WGCNA分析,简单全面的最新教程
WGCNA 分析
STEP6:WGCNA相关性分析
一文学会WGCNA 这篇和上面的一篇差不多,都是具体的分析过程,有详细的代码
3.Design and analysis of single-cell sequencing experiments
这篇文章对现有的基因组和转录组测序的方法做了一个总结,并讨论了每种方法的优点和局限性。作者还比较深入的讲了数据获取,过滤,分析等必要的步骤需要注意的地方。不过这篇文献也没有具体的代码分析过程。
4.Data Analysis in Single-Cell Transcriptome Sequencing
万万没有想到的是,我在网上搜索单细胞测序的一些文献的时候,会读到一篇里面提及王院长的文章。这篇文章里比较了单细胞测序的几个不同方法的不同点,并且讲了利用单细胞测序在肿瘤干细胞研究中的应用。