今天来聊聊单细胞测序:单细胞RNA-seq质量控制

单细胞RNA-seq (scRNA-seq)是一种有前途的技术,以表征和解剖细胞间的变化。然而,技术噪音和生物内在可变性的混合使得分离技术制品和真正的生物变异细胞特别具有挑战性。在下游分析之前,适当的检测和过滤出技术工件是至关重要的。在这里,我们提出了一个整合基因表达模式和数据质量的协议,以检测scRNA-seq样本中的技术构件。

1. Lab Equipment 1. C1 Single-Cell Auto Prep IFC (Fluidigm).

2. EVOS FL Auto Cell Imaging system (Life Technologies).

3. Illumina HiSeq 2500 system.

图1 scRNA-seq框架的质量控制(QC)说明。细胞可以根据基因表达模式分离成基因表达异常的细胞和主要群体的细胞。数据质量边界是通过允许一定百分比(例如,<5%)的主要种群细胞不能通过它们来确定的。技术工件被定义为无法通过数据质量边界的基因表达异常值。亚群细胞被定义为基因表达异常值,可以通过数据质量边界。

Kits 1. SMARTer PCR cDNA Synthesis kit (Clontech).

2. Advantage 2 PCR kit (Clontech).

3. Nextera XT DNA Sample Preparation Index Kit (Illumina).

2.3 ScRNA-seq Data 1. Raw scRNA-seq dataset (H1) can be accessed by Gene Expression Omnibus (GEO) with accession number (GSE64016).

2. The downloaded files from GEO are SRA format.

3. SRA toolkit (http://www.ncbi.nlm.nih.gov/Traces/sra/sra.

cgi?view¼software) can be used to convert files from SRA

format to FASTQ format via “fastq-dump” utility.

方法:

1.人类胚胎干细胞,将未分化的H1人胚胎干细胞(hESCs)培养于基质涂层组织培养板上的E8培养基中,每日使用37℃和5% (vol/- vol) CO2喂养。用0.5 mM EDTA每3-4天分裂一次细胞进行基础维持。在准备单细胞悬浮液之前 采用Accutase (Life ,用E8培养基洗涤一次,重新悬浮 在E8培养基中,密度5.0-8.0  105 cells/mL 对细胞的捕获。(H1 hESCs在NIH人类胚胎注册干细胞注册,批准号:NIHhESC-10-0043).

2.单细胞捕获和文库准备。5000-8000细胞装载在中等尺寸(10-17 μm)的单细胞自动Prep IFC (Fluidigm)上。利用EVOS FL自动电池检测了捕获效率成像系统对IFC板中心的96个捕获点进行自动区域扫描。空捕获位点或有多个细胞捕获的位点首先被注意到,这些样本随后被排除在进一步的RNA-seq库处理之外。捕获和成像后,立即在C1系统中使用SMARTer PCR cDNA合成试剂盒(Clontech)和Advantage 2 PCR试剂盒(Clontech)进行反转录和cDNA扩增。第二天从C1芯片中提取全长单细胞cDNA文库,稀释至0.1-0.3 ng/μL。用Nextera XT DNA样品制备试剂盒和Nextera XT DNA样品制备指数试剂盒(Illumina)对稀释后的单细胞cDNA文库进行片段化扩增。每个通道24个文库多路复用,67 bp的单端读码在Illumina HiSeq 2500系统上测序。

3.Reads Mapping。使用Bowtie来映射原始reads与内参考基因(例如,人类hg19 Refseq引用),允许最多两次不匹配和最多20次多次命中。映射的预期read counts和tpm可以由RSEM估计。

4.主要群体细胞分类到基因表达异常。假定一个细胞,计算一个Spearman rank相关性列表,将给定的细胞与数据集中的其他细胞进行比较(“one-to-others”)。然后,删除给定的细胞,并为剩余的细胞计算一组成对的Spearman等级相关性(“成对”)。使用单侧Wilcoxon带符号秩检验来评估“一对他”相关是否显著低于“两两”相关集。使用皮尔逊积矩相关性也进行了类似的处理。根据两种检测的p值将细胞分出基因表达异常或主要群体细胞。在这项研究中,我们将基因表达异常值定义为在Spearman和Pearson检验中pvalues均小于0.001的细胞。

5.scRNAseq文库质量评估测量方法:(1总映射读数:所有基因的映射读数之和。极低的测序量可能会影响转录组的特征,这可能是由于低的测序率或在样品制备或测序过程中引入的其他技术问题。(2映射速率:映射读的总次数除以读深度。定位率可能会受到RNA降解、基因组DNA污染或在样品准备或测序过程中引入的其他技术问题的影响。(3读取复杂度:唯一读取(删除重复后的读取次数)占所有读取次数的比率。

6.结合文库质量指标的综合分数

对于每个细胞,计算每个质量指标的分位数分数(QS)。给定一个度量,细胞的QS定义为数据集中其他值相等或更低的细胞数除以细胞总数。例如,如果一个细胞在一组80个细胞中具有第20高的映射率,那么这个特定细胞的映射率QS为0.75。QS越高,说明数据质量越好。

最小分位数分数(MQS):三个质量指标的最小QS。

MQS= min{QSi}g

i∈{mapped reads;mapping rate; reads complexity}

MQS假设这三个质量指标中的每一个都是关键的,这三个指标中的任何一个缺陷都是技术问题的潜在指标。因此,细胞的“最终质量”取决于其最低质量度量分数。

我们的方法假设基因表达异常值包含技术伪影和生物变异细胞,但一般来说,主要群体的细胞更有可能包含高质量的细胞。因此,我们的方法使用主要人群的细胞作为对照来估计数据质量分数的边界和相应的假阳性率(FPR)。然而,鉴于FPR中,由于scRNA-seq没有“好样本”和“坏样本”的“基本事实”,直接估计这两种测量方法是一个挑战。为了进一步比较我们的方法在高异质性和低异质性数据集的敏感性和特异性,我们将我们的方法应用于混合不同细胞类型的数据集,并比较它们之间检测到的技术伪影的重叠。例如,使用鼠scRNA-seq数据集,(48个ES细胞和44个MEF细胞).我们将细胞混合成三种不同的类别:高异质性(48个ES细胞+44个)MEF细胞),中等异质性(“ES细胞(全部)+ 1/5

(MEF)细胞”和(“MEF细胞(全部)+ 1/5 (ES)细胞”),以及低异质性(分别为(48个ES细胞)和(44个MEF细胞))。然而,如果我们将我们的方法分别应用于每个ES(48个细胞)或MEF(44个细胞)数据集,我们可以检测到更多的人工技术造成误差,相比于将我们的方法应用于混合数据集(48个ES细胞+44个MEF细胞)。

我们的方法检测高异质性数据集(48个ES细胞)中的两个技术工件(ESC_46和ESC_32)

+ 44 MEF细胞)。无论是在中等异质性数据集还是在低异质性数据集中,这两种技术产物都可以被稳健地检测到。

我们的结论是,当数据集的异质性程度很高时,我们的方法增加了特异性,但代价是降低灵敏度。在高度异质的细胞群中,检测技术伪影会带来更高的风险,使真正的生物变异细胞脱落。我们的方法对于高度异质性的细胞群增加了特异性,降低了敏感性,这是一个很好的特点,可以最大限度地减少假阳性.

The running SinQC for scRNA-seq QC is not restrictive to RSEM output files (“*.genes.results”). For users who do not use RSEM, they can make a customized RSEM files (“*.genes. results”) to run SinQC. A detailed manual can be found in

SinQC website (http://www.morgridge.net/SinQC.html).

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容