题目:
High throughput detection of variation in single-cell whole transcriptome
through streamlined scFAST-seq
bioRxiv preprint doi: https://doi.org/10.1101/2023.03.19.533382
通讯作者:
Yi Zhao: SeekGene BioSciences Co. Ltd, Beijing, China
Shaozhuo Jiao: Key Laboratory of Intelligent Information Processing, Advanced Computer
Research Center, Institute of Computing Technology, Chinese Academy of Sciences, Beijing, China
1 背景
目前的scRNA-seq方法主要利用oligo-dT引物从mRNA[1]的多聚腺苷酸化尾部启动逆转录,导致检测非多聚腺苷酸化转录物,如长链非编码rna (lncRNAs)、组蛋白mRNA[2]、核糖体RNA、环状RNA (circRNAs)和增强子RNA (eRNAs)[3]的敏感性较低。
高通量scRNA-seq方法由于其短文库片段(~300-700个bp)具有明显的3 '或5 '端偏好,这些片段必须与转录本的poly(A)尾或5 '端相邻。这限制了它们在检测突变或可能发生在RNA链任意位置的可变剪接事件方面的潜在应用。
目前虽然通过使用长读测序分析来自高通量scRNA-seq平台的条形码cDNA产物,可以检测全长RNA序列来分析可变剪接事件[4-7]。然而,长读测序的成本和无法检测非聚腺苷酸转录本阻碍了它们的广泛应用。
VASA-seq(通过dA - tail技术对单细胞进行大规模转录组分析)可以捕获非聚腺苷酸和聚腺苷酸转录本,并在低成本的短读长二代测序平台上对它们进行测序,没有显著的3 '或5 '端偏好[8]。然而,VASA-seq需要重复的液滴生成和picoinjection,这对大多数生物实验室来说太复杂了。
2 问题及目的
为了克服这些挑战,我们开发了一种全长RNA序列转录组测序方法(scFAST-seq; a Full-length RNA Sequence Transcriptome sequencing method), 该方法将半随机引物(semi-random primers)与高逆转录效率和方便的rRNA去除技术相结合cDNA扩增步骤。
3.工作流程
4 实验优化
4.1 RT引物
4.1.1 completely-random primers (dN9 and dN15)
参考文献[9]:Reverse transcription using random pentadecamer primers increases yield and quality of resulting cDNA. Biotechniques, 2006. 40(5): p. 649-57. 结果表明,在poly(A) RNA和aRNA的逆转录反应中,随机十五聚体可以取代随机六聚体,从而获得更高的cDNA产量和质量。
4.1.2 semi-random primers
一种引物: 5N3G/5N3T
参考文献[10] :Effective detection of variation in single-cell transcriptomes using MATQ-seq. Nat Methods, 2017. 14(3): p. 267-270. 其RT引物为(page-purified GATdT primers (GTG AGT GAT GGT TGA GGA TGT GTG GAG N5T20)), page-purified MALBAC
primers (GTG AGT GAT GGT TGA GGA TGT GTG GAG N5G3, and GTG AGT GAT GGT TGA GGA TGT GTG GAG N5T3)
另一种引物:12N7K
(random 12N followed by 7bp with known sequence)
barcoded 12N7K with sequence CTACACGACGCTCTTCCGATCT(j)17(N)12TTGCTGT, where (j)17 represents the 17bp cell barcode sequences and (N)12 represents the random 12bp sequences (available as universal gel beads, SeekGene Biosciences).
PS: CTACACGACGCTCTTCCGATCT Truseq Read 1
4.1.3 结果
结论:12N7K的转录本检测灵敏度最高
4.2 rRNA/mtRNA去除
目前存在几种用于消耗核糖体RNA (rRNA)[11]的技术,包括使用hybrid-specific antibodies[12]或magnetic streptavidin-coated beads[13]分离rRNA,使用RNase H[14]选择性降解rRNA以及使用双特异性核酸酶(DSN)处理[10,15]。然而,这些方法都不能无缝地应用于基于液滴的scRNA-seq方法。
本研究通过PNA(Peptide nucleic acid)介导的PCR clamping ,开发了一种方便的rRNA缺失方法[16,17]。如图1b所示,我们设计了带有3 'non-extension blocker (3 '磷酸化)的探针,该探针可以与来自rRNA/线粒体RNA (mtRNA)的cDNA完美杂交,并将这些探针混合到cDNA扩增实验中。在PCR的退火和延伸步骤中,当使用无5 '→3 '外切酶活性的聚合酶时,探针快速结合rRNA/mtRNA衍生的cDNA并抑制链的延伸。与此同时,未与探针杂交的rna可以指数扩增。这种扩增效率的差异导致在几个PCR循环后,最终文库中的rRNA百分比最小。如图1c所示,核糖体reads占总测序reads的比例从30%有效降低到10%,mtRNA reads的比例从6%以上降低到1%以下。
4.3 cDNA 3 '端添加适配器的方法
4.3.1 multiplexed primer extension
参考文献 [18, 19]
破乳纯化后,cDNA加入含5μ l NEBuffer 2、2μ l 10mM dNTP、1.5μL Klenow Fragment (3 ' -> 5 ' exo-, NEB)、5μ l 100μM随机引物(TCAGACGTGTGCTCTTCCGATCTNNNNNNNNN)共50μ l的检测试剂盒中,协议时间:25℃10min、37℃20min、50℃10min。经1.8倍DNA清洁珠纯化后,用引物对(正向:acactcttccctacacgacgctcttccgatct,反向:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT)扩增10-13个周期(98℃30 sec, 63℃1 min, 72℃1 min)。扩增产物用1X清洁珠纯化,引物扩增得到最终文库。
4.3.2 TdT-mediated tailing of cDNA ends
参考文献[20]
破乳纯化后,根据illuminaV2的Scale ssDNA-seq lib Prep kit (10pg-200ng, RK20228, abclonal)手稿,将T7适配器尾尾结扎至cDNA 3 '端。经第二链合成反应,用0.6X DNA清洁珠纯化后,用0.6X DNA清洁珠扩增纯化。
kit 注: NNNNNNNNNNN:插入的 DNA 序列;Poly C:4-10bp 的 dCTP;
XXXXXXXX:8bp Index 序列。由于文库 3’端含有低复杂度的 Poly(C)结构,为了提高测序的质量,建议测序时加入不少于 25%的 PhiX 或者其他复杂度高的 Pooling 文库。
4.3.3 template switch
由于半随机因子可以在转录本的多个位点退火和启动逆转录,因此可以从单个RNA分子转录出多个cDNA链。因此,在cDNA 3 '端添加适配器的其他方法可能比模板切换产生更高的RNA检测灵敏度,模板切换优先将TSO序列添加到互补RNA具有5 '帽结构的cDNA 3 '端。插入cDNA 3 '端的适配器作为PCR引物,对cDNA进行指数扩增,生成足够的产物用于文库建设。我们比较了引物多路延伸[18,19]和tdt介导的cDNA末端[20]的拖尾两种模板切换方法。令人惊讶的是,与其他两种方法相比,模板切换在cDNA产量和每个细胞的中位基因方面具有更好的性能(图1D)
5 实验详细步骤
5.1 RT
除凝胶珠外,本文使用的所有试剂和耗材均来自SeekOne®DD单细胞3 '转录组试剂盒(SeekGene Biosciences)。与试剂盒中带有条形码oligo-(dT)30引物的单细胞3 '凝胶珠不同,scFAST-seq的半随机引物采用序列12N7K CTACACGACGCTCTTCCGATCT(j)17(N)12TTGCTGT进行条形码编码12N7K,其中(j)17表示17bp细胞条形码序列,(N)12表示随机12bp序列(可作为通用凝胶珠,SeekGene Biosciences)。偶联凝胶珠的引物为5N3G/T,序列为CT…CT-(j)17(N)5GGG和CT…CT-(j)17(N)5TTT, dN9序列为CT…CT-(j)17(N)9或dN15序列为CT…CT-(j)17(N)15。
在46.8μL RT引物(20μL RT buffer, 18μL Indicator, 5.2μL RT Enzyme, 2μL** TSO和1.6μL Reducing buffer)中加入3K ~ 20K细胞**和水,共80μl。移液管混合10次后,将78μL RT混合液装入1号孔。将含有低聚(dT)30引物或随机引物的凝胶珠装入2孔,然后将载体油装入芯片中的3孔。然后使用SeekOne®数字液滴仪在5分钟内将液滴生成到4收集孔中,并转移到新的PCR管中,执行以下程序进行逆转录:热盖85°C, 15°C 45 s, 20°C 45 s, 30°C 30 s, 42°C 3分钟(温度变化速率1.5°C/s);85°C 5分钟。
5.2 cDNA扩增及rRNA/mtRNA去除
破乳纯化后,将cDNA加入25μL 2×KAPA、0.4μL cDNA Primer和总计50μL的无酶水的PCR检测中。98°C持续3分钟后,对3 ' scRNA-seq进行13个循环(98°C持续10秒,63°C持续15秒,72°C持续3分钟)。为了降低rRNA/mtRNA在PCR产物中的比例,在检测中加入1.45μL block probes(终浓度0.2μ l),按照98°C 3 min,(98°C 10 sec, 63°C 15 sec, 72°C 3 min)进行两轮PCR, 72°C 5 min, 4°C Hold。第一轮PCR产物用0.6X SPRI珠纯化,作为第二轮PCR的模板。第二轮PCR的最终产物用0.6X DNA清洁珠(Vazyme)纯化,并溶于40μL Nuclease free水。
5.3 文库制备和测序
将cDNA产物的四分之一体积进行碎片化,末端修复并添加“A”。用0.6x/0.2x DNA清洁珠选择尺寸后,用T4 DNA快速连接酶将产物连接到Illumina Truseq适配器上。用0.8x DNA清洁珠纯化结扎产物,用25μL 2x kapa HiFi HotStart Ready mix和2μL 10μM引物在50μL检测中扩增。98°C孵育3 min后,进行13个PCR循环(98°C 20 s, 54°C 30 s, 72°C 20 s),最终产物以0.5x/0.3x DNA清洁珠选择尺寸。文库在Illumina Novaseq 6000上用PE150策略测序。
6 实验结果
6.1 scFAST-seq与3 ' scRNA的一致性和差异
数据: K562、A549和HCC827细胞系以及乳腺癌(BRCA)、胶质母细胞瘤(GBM)、小鼠胰腺癌模型(PAAD)和PBMC样本的混合物。
scFAST检测基因数:细胞系(50k/cell;4.5K);GBM (50k/cell;2.7K);PBMC(50k/cell;~2K)
6.2 scFAST-seq在转录本分析中的优势
A.在GBM和BRCA样本中,使用scFAST-seq的lncRNA转录reads的比例高于3 ' scRNA-seq。
B.来自10X Genomics和GEXSCOPE平台的肺癌scRNA-seq数据与肺癌scFAST-seq数据(未发表)。我们发现scFAST-seq可以在肺癌中显著检测更多的lncrna,同时保持管家基因的等效表达水平。
C. StringTie软件重组转录本并获得一套新的转录本。scFAST-seq可以检测到比3 ' scRNA-seq更长的转录本。
D.为了找到更敏感的新连接,我们使用STAR—twopassMode Basic方法来使更多的剪接读取映射到新的连接。统计上,我们发现scFAST-seq比传统的3 ' scRNA-seq发现了更多已知的和新的剪接连接。
F.在细胞水平上进行了分析,发现scFAST-seq在六种乳腺癌细胞类型中检测到更多的剪接连接
G.在6种乳腺癌细胞类型中,scFAST-seq鉴定出c和j转录本的比例明显高于3 ' scRNA-seq,其中j转录本被定义为潜在的蛋白质异构体
或example, ' = '内含子链完全匹配;“c”中;与参考转录本共享至少一个剪接结的潜在新异构体(片段)。
6.3 通过scFAST-seq准确推断T细胞进化方向
研究表明,当成熟mRNA表达时,一部分不成熟转录本被剪接。当基因表达增加时,在细胞内观察到未成熟的未剪接转录物的比例瞬间增加。相反,当基因表达减少时,在短时间内可以看到较高比例的剪接转录本。因此,我们计算了样本中剪接转录本与未剪接转录本的比例,发现scFAST-seq在所有三个样本中检测到更多的未剪接转录本,约为3 ' scRNA-seq的两倍(见图4)。
RNA速度:通过评估未剪接(新生)和剪接(成熟)mRNA的丰度来揭示转录本丰度随时间的动态变化。使用scFAST-seq和3 ' scRNA-seq数据计算了单个细胞中每个基因的未剪接转录本与剪接转录本的比例,以揭示乳腺癌样本中基因表达和细胞状态的变化。我们使用scVelo软件根据每个基因未剪接与剪接计数的比值计算出的RNA速度,在UMAP上标记细胞状态变化方向。我们的结果表明,scFAST-seq可以标记几乎所有细胞的方向,而3 ' scRNA-seq只能标记一小部分上皮内皮细胞和B细胞,未被标记(见图4 B)。
在慢性感染和癌症患者中,t细胞由于长期暴露于持久性抗原和炎症而不断受到刺激。这可能导致t细胞衰竭,精疲力尽的t细胞逐渐失去其效应功能和记忆t细胞特征。在乳腺癌样本中,我们根据之前的研究将T细胞分为三种亚型:“天真的”,“效应”和“疲惫和Treg”。如图4 c所示,全序列技术可以定义几乎每一个T细胞的分化方向,预测结果与T细胞从初始到最终衰竭的三种状态的已知变化一致。然而,3 ' scRNA-seq只能预测部分细胞的分化方向,结果与已知的T细胞分化方向不一致(见图4)。
根据基因表达分析了细胞分化轨迹,发现scFAST-seq清晰地描述了T细胞从起源到最终衰竭的分支轨迹(见图4 d)。
6.4 结合靶区富集技术,准确检测基因突变和融合
基因组不稳定和驱动基因突变是癌症的标志,改变功能的体细胞突变为癌症基础研究和治疗提供了有价值的信息。此外,体细胞突变有助于肿瘤细胞的异质性和致瘤信号通路的改变。因此,在单细胞中检测体细胞突变的需求尚未得到满足。鉴于体细胞突变可以发生在基因的任何位置,并且必须翻译成蛋白质才能获得功能,scFAST-seq具有检测全长RNA的能力,被认为是检测单细胞突变的理想方法。为了验证这一假设,我们同样混合了标准细胞系HCC827(与EGFR 19del)、A549(与KRAS G12S)和K562(与BCR-ABL融合),并进行scFAST-seq来评估突变检测的敏感性。如图5A所示,细胞簇被正确识别为三个细胞系,表明scFAST-seq的交叉污染最小。然而,只有6.77%的A549细胞有KRAS G12S突变,30.53%的HCC827细胞有EGFR 19del突变(图5A,左图)。进一步分析表明,较低的测序深度和覆盖率导致了突变检测的低敏感性。然而,由于成本高,增加转录组文库测序数据并不是一种选择,因此我们开发了两种基于scFAST-seq的靶区富集方法[生物素探针诱饵富集方法和巢式PCR],以较低的成本检测高测序深度的突变。
7 总结
优点:
更好地检测非聚腺苷酸转录物,更长的转录物覆盖范围,识别更多的剪接连接,以及更准确地预测细胞分化方向。当与靶区富集结合时,scFAST-seq在单细胞水平检测外显子随机发生的突变具有更大的潜力。
不足之处:
bcr-abl融合在k562细胞中的检出率低于预期。可能的原因包括融合基因的表达拷贝有限,以及半随机引物在捕获没有互补序列的RNA某些区域时效率较低。我们还注意到,特定基因的覆盖率因其表达水平的不同而有很大差异。这主要是因为属于一个UMI的测序读可以组装并覆盖500-1000bp的序列。因此,对于长度为2000个基点的基因,至少需要3个UMI——但实际上通常需要10个UMI——才能在单个细胞中实现特定基因90%的覆盖。这个问题可以通过恢复更多的cDNA来提高敏感性来缓解,正如Seqwell-S3所做的。