题目:Single-cell quantification of a broad RNA spectrum reveals unique noncoding patterns associated with cell types and states
期刊:PNAS
通讯作者:Stephen R. Quake
1. 背景
每个细胞转录了近85%的基因组。然而,在分析细胞RNA时,大多数研究仍然只关注与蛋白质编码转录物相对应的3%。单个细胞中剩余RNA的作用和丰度在很大程度上仍然未知。
迄今为止,表征单细胞转录状态的工作主要集中在蛋白质编码RNA(1-4)。然而,越来越多的研究表明,非编码rna (ncRNAs)积极参与细胞功能和特化(5-8)。重要的是,与仅占基因组的1%到2%的编码RNA相比,ncRNA构成了所有细胞转录物的主要部分,覆盖了基因组内容的70%(9)。这些转录物在塑造不同细胞类型和状态中的作用仍然知之甚少。
一些研究小组已经开发了测量单细胞ncRNA的技术(10-15)。然而,各自的方法都被设计成只针对非编码转录本的一个子集,这些转录本要么很短(~ 18到200 nt;例如,microRNA)(11,16),长(>200 nt,例如长ncRNA [lncRNA]或环状RNA [circRNA])(10,14,17,18),或仅限于特定类型的RNA分子,例如miRNA-mRNA对(10,12)。现有的方法都不能同时定量一个细胞内的所有RNA类型。这限制了绘制细胞内编码和非编码转录本之间的调控连接的能力,并激发了开发无论转录本长度,都能够同时分析poly(a)+和poly(a)−RNA的新型单细胞技术的需求。
2 目的
Smart-seq-total,这是一种能够从单个细胞检测广泛的编码和非编码RNA(长非编码、microRNA和其他非编码RNA转录物)的方法。
3 工作流程
4 实验优化
4.1 引物改进
Smart-seq-total通过所有细胞转录物模板独立添加多A尾巴,进一步用寡-dT(含UMI)启动来捕获非多腺苷酸化RNA。
与Smart-seq3一样,Smart-seq-total(v2)在反向转录后不需要清理步骤,因此在cDNA扩增期间也可能随机加入UMI。然而,我们表明,在当前的协议条件下,这些事件可以忽略不计。
Smart-seq-total oligo-dT primer:(/5BiosG/CATAGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-[optional UMI]-T30VN-3′; IDT) in TE buffer (IDTE [10 mM Tris, 0.1 mM EDTA]
Smart-seq-total v1
TSO: (5′-biotin-UCGUCGGCAGCGUCAGUUGUAUCAACUCAGACAUrGrG+G-3′), Smart-seq-total利用了TSO的优化版本(19),专门设计用于在逆转录后直接通过酶[ Uracil-DNA glycosylase (UDG, New England Biolabs, M0280S)]消化从反应中快速消除。这使我们能够去除源自TSO的polya尾和错误引物的“污染物”结构,否则它们将主导最终的测序文库,并使短RNA转录本不可检测。
forward PCR primer (5′-TCGTCGGCAGCGTCAGTTGTATCAACT-3′; IDT), 0.5 μM reverse PCR primer (5′-GTCTCGTGGGCTCGGAGATGTG-3′; IDT)
Tm 67 °C
Smart-seq-total v2
TSO v2 (, 5′-biotin-AdUGGCdUCGGAGAdUGdUGdUAdUAAGAGACAGdUCdUrGrG+G-3′)
forward PCR primer (5′-GCTCGGAGATGTGTATAAGAGACAG-3′; IDT),
reverse PCR primer (5′- TCGTCGGCAGCGTCAGTTG-3′; IDT)
Tm 65 °C
4.2 rRNA 片段耗尽
后生动物(metazoan)RNA7SK和RN7SL1分别参与转录和翻译的调节(在GENCODE数据库中被注释为“杂RNA”型[miscRNA])在我们的数据中是最丰富的,共占所有映射reads的40%。我们证明,如果需要,这些分子也可以使用专用的CRISPR方法从测序文库中耗尽rRNA。
5 结果
5.1 细胞类型特异性转录本
在细胞类型特异性转录本中,我们发现了成纤维细胞human primary dermal fibroblasts、HEK293T (CKB、AMOT、HEY1)或MCF7细胞(KRT8、TFF1)的特征良好的标记基因(图1C和SI附录,图S8A),以及属于各种ncRNA类型的转录本,如microRNA、snoRNA和lncRNA(图1C和SI附录,图S8)。例如,我们在成纤维细胞中发现了高水平的MIR222,而在MCF7细胞中却检测不到。我们还观察到,致癌miRNA簇MIR17HG是HEK293T细胞特异性的,而在成纤维细胞或MCF7细胞中都没有发现。相比之下,mcf7特异性转录本包括lncRNA,如LINC00052,以及snoRNA,如SNORD71和SNORD104。
鉴于观察到的ncRNA水平在分析细胞中存在差异,我们接下来询问是否可以单独使用ncRNA来区分细胞类型。为了回答这个问题,我们对一个或多个ncRNA类型对应的基因进行了主成分分析(PCA),然后通过t分布随机邻居嵌入(t-SNE)降维。在二维空间中评估细胞之间的相似性显示,除了lncRNA(26),单独的miRNA将所研究的细胞类型分为三个不同的簇。将snoRNA、scaRNA、snRNA和tRNA结合在一起,我们可以获得类似的结果(图1D)。虽然单个snoRNA和scaRNA的确切功能在很大程度上仍未确定,但这些rna被认为在转录后和翻译后控制中起着至关重要的作用(27-29)。在这里,我们表明它们的丰度也是细胞类型特异性的(SI附录,图S8A)。
5.2 细胞周期
在根据细胞周期阶段对所有细胞进行分组后(30),我们观察到除了ncRNA中依赖细胞类型的差异外,某些非编码转录物的丰度也在整个细胞周期中发生变化(图2A)。先前的大量研究表明miRNA参与细胞周期调节(31,32),与此一致,我们发现细胞中miRNA的一个子集的水平在细胞周期中动态变化,在S期、G2M期或G1期达到峰值(图2A)。例如,我们的数据显示,成纤维细胞中MIR16-2的水平在S期较高,随后在G2M和G1期逐渐下降(SI附录,图S9)。相反,MIR222在成纤维细胞和HEK293T细胞中都是如此,在细胞增殖(G1)和DNA复制(S)和细胞分裂(G2M)阶段更丰富(图2A和SI附录,图S10)。在G2M期更丰富的mirna中,我们鉴定出MIR27A, MIR103A2和MIR877 (SI附录,图。S9-S11)。除miRNA外,G2M期大量lncRNA、snRNA、scaRNA、snoRNA和miscRNA也上调(log2 fold-change [FC] > 1,校正后P < 0.01)(图2A和SI附录,图2。S9-S11)。考虑到这些RNA类型在剪接和核糖体生物发生中的积极作用,我们认为它们是由细胞在G2M阶段响应蛋白质合成和细胞生长的快速需求而产生的。
组蛋白RNA是另一种主要的非聚腺苷酸RNA,我们观察到它与细胞周期密切相关。与先前的研究一致(33,34),在所有三种细胞类型中,组蛋白RNA水平在S期急剧上升(图2C)。通过引入细胞周期偏倚,捕获非聚腺苷化组蛋白的能力也对细胞聚类有很强的影响。特别是,组蛋白促使每种细胞类型分离成两个不同的群体(SI附录,图S13A),其标志是在DNA复制阶段大多数组蛋白基因的水平增加。
除了以细胞周期依赖的方式表达外,我们还鉴定出一些组蛋白是细胞类型特异性的。例如,HIST1H4L在成纤维细胞中表达,但在HEK293T和MCF7细胞中不表达,而HIST1H1B在HEK293T细胞中不表达,而在其他两种细胞类型中存在(图2D)。鉴于组蛋白在建立和维持细胞中独特的染色质图谱方面的重要性,我们预计测量相应转录本的能力对于预测细胞的表观遗传状态可能是有价值的。
5.3 miRNA
根据原理,Smart-seq-total被设计用于广泛量化细胞总RNA含量。然而,我们也表明,短的、含量较低的分子,如mirna(35),可以从umi标记和索引的Smart-seq-total文库中选择大小,用于进一步深入分析(图2E)。在24个HEK293T细胞的例子中,我们证明,就每个细胞检测到的miRNAs的数量和类型而言,这种基于大小的富集策略产生的结果与最先进的单细胞小RNA-seq方法(11)相当(图2F和SI附录,图S14 A-C)。在HEK293T细胞中最丰富的miRNA中,我们发现了三个保守的旁簇的多个成员- mir -17/92、miR106a/363和miR-10b/25(36) -以及let-7 miRNA家族的各种成员(SI附录)。我们注意到成熟miRNAs的水平通常在一个簇内相关性更好,而不是在不同的簇之间(SI附录,图S14 D-F)。然而,成熟形态的丰度在集群成员之间很大程度上是不同的。具体来说,我们发现两种成熟miRNAs miR-92a-3p和miR-25-3p的水平比任何其他集群成员的水平高几倍(图2G)。先前在体内观察到miR-92a在组织水平上的选择性保留(36),并将其归因于集群成员的差异转录后处理(37,38)。我们的数据表明,选择性miRNA保留的现象可以在单细胞水平上观察到,并且扩展到17/92簇之外。
5.4 ncRNA与细胞发育的早期阶段建立
最后,我们试图了解不同细胞类型获得的独特的非编码特征是否在细胞发育的早期阶段建立,如果是这样,它与细胞转录组的动态关系如何。为了解决这个问题,我们参考了早期谱系承诺的体外模型:多能干细胞分化为胚状体(EBs)(40)。ncRNA在维持干细胞多能性和谱系承诺中的作用已通过大量实验得到证实(41,42)。因此,我们假设,将Smart-seq-total应用于EB形成的不同阶段的单细胞,将使我们能够在新兴谱系中识别共表达的编码和非编码转录本。因此,我们分析了引物多能干细胞的RNAome,以及在培养第4、8和12天从分离的EB中获得的单个细胞的RNAome(每个时间点约200个细胞,总共913个细胞)(图3A)。与之前的研究一致(43),多能干细胞表达的编码基因数量也高于分化祖细胞(SI附录,图S16A)。这也是几种ncRNA类型的情况,如lncRNA, miRNA和scaRNA (SI附录,图S16B)。具体来说,我们观察到细胞退出多能性后,某些snorna(如Snord17、Snora23和Snord87)、Scarna13和Scarna6、lncrna (Platr3、lnenc1、Snhg9、Gm31659等)和mirna (Mir92-2、Mir302b和Mir19b-2)的水平下降(log2FC > 1,调整后P < 0.01)(图3B)。相比之下,我们还发现几种lncrna (Tug1, Meg3, Lockd)和mirna (Mir298, Mir351, Mir370)的水平随着分化而升高(图3B)。
6 优缺点
Smart-seq-total能够对单个细胞中编码RNA和ncRNA转录物的广谱进行无偏倚的探索。
目前Smart-seq-total的局限性是:1)无法测定circRNA; 2)转录物的内源性多聚腺苷酸化状态的丧失。
Smart-seq-total的进一步修改可以包括选择特定的转录本长度(短与长)和消耗更大范围的过度代表RNA。
我们预计Smart-seq-total将有助于识别非编码调节模式及其在调节细胞功能和塑造细胞身份中的功能作用。这也可能改变目前以蛋白质为中心的基因调控观点,转向以蛋白质和RNA调控因子为特征的综合图谱。
7 数据处理
for Smart-seq-total v1, reads were trimmed from polyA tails using cutadapt v1.18 with the following parameters: -m 18 -j 4 -a AAAAAAAAAA -a TTTTTTTTTT. Reads were then aligned to the human (GRCh38) or mouse (GRCm38) genomes using STAR_v2.7.0d (50) with the following parameters: –outFilterMismatchNoverLmax 0.05 –outFilterMatchNmin 18 –outFilterMatchNminOverLread 0 –outFilterScoreMinOverLread 0 –outMultimapperOrder Random. Reads mapping to multiple locations were assigned either to a location with the best mapping score or, in the case of equal multimapping score, to the genomic location randomly chosen as “primary.”
Transcripts were counted using featureCounts v1.6.1 (51) with the following parameters: -M –primary -s 1. GENCODE v32 and GENCODE M23 (52) annotations were used for human and mouse reads, respectively. tRNA was quantified using high-confidence gene set obtained from GtRNA (53). To account for multimappers, “primary” alignment reported by STAR was counted. For miRNA and tRNA, all reads mapping to arms or the stem loop were summed to quantify the expression at the gene level.