单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (下篇)

作者:赵玥
审稿:童蒙
编辑:angelica

引言

单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA 测序所得不到的信息,对于研究发育生物学,肿瘤生物学,免疫等有着极其重要的价值。

单细胞测序的核心就是t-SNE降维,以及聚类。那么在做这些工作之前的质控,关乎到整个分析的成败。这篇文章我就继续给大家讲讲单细胞质控的那些事儿。

单细胞分析整体流程

我们先来简单了解一下整个单细胞的流程:

整个单细胞分析的核心其实就是确定cell types/ lineages。而在此之前的一步就是数据质控(QC, quanlity control)。我们在得到表达矩阵之后,会做Data normalization , 基因集筛选,批次效应的去除等工作;之后用PCA, t-SNE进行降维。如果在这一过程中发现了一些问题,我们会移除掉一些细胞,然后重新质控,降维分析。

质控的检查点:

一般而言,检查点有如下一些:

  • 唯一比对率
  • 比对到外显子区域的比例
  • 单细胞全长转录本中的3'偏好性
  • 比对到mRNA上的reads
  • UMI/reads比值
  • 检测出的基因数目
  • 检测Spike-in RNA
  • 线粒体、核糖体RNA 比例

比对率比较低或者reads数较少有可能是建库原因。reads数较少可能与形成较多的primer dimer有关,而比对率低通常是建库的原因。

如果spike-in RNA序列很少,那么就可以直接说明是建库失败。如果spike-in 正常,但细胞RNA序列较少,可能是因为这个细胞本身就非常小,或者细胞在建库前出现了破损。

检测出基因的数量与细胞大小直接相关。如果检测出的基因(UMI)过多,很有可能是这个droplet里面有多个细胞,但是也不能排除是这个细胞就是非常的大。如下图,基因数目过多或者过少,都是不正常的情况。


通常而言,细胞大小、spike-in RNA比例与检测出的基因数往往是正相关的,如下图。


如果线粒体RNA过高,也同样预示着细胞有破损。因为当细胞破损时,细胞质RNA会跑出来,但是线粒体RNA由于有线粒体膜的包裹,不会溢出。因此,当细胞膜有破损时,线粒体RNA所占比例会很高。注意:当细胞出现apoptosis, necrosis的时候,也会有这种现象。

核糖体RNA占比较高时,可能是因为细胞内出现了较多的RNA降解。在全长单细胞转录组中,3’ 偏好性可用于检测细胞内是否存在大量RNA降解。

如何过滤细胞

1.使用指标

通常,大多数细胞都会有相同趋势,我们综合多个指标来去掉一些不合格的细胞。因此要先看一眼数据的分布,再决定有哪些细胞需要被过滤掉。

在上图中,我们对细胞中基因的数量、唯一比对率、基因body比对率、spike_detection等绘制分布图,然后剔除不合格细胞,将能够通过上述所有质控标准的细胞保留下来、用于后续分析。

2.基于PCA

基于PCA这一算法也可以进行质控,找到明显没有与其他细胞聚到一起的细胞。这些细胞被认为是质控不达标的细胞,如下图所示。

我们已经有了这么多方法和指标去过滤细胞,那么我们需要注意一些什么呢?

  1. 你是否有很多细胞大小非常相近的同源的细胞?比如血红细胞。
  2. 你在过滤细胞的时候要小心,因为你有可能会过滤掉一些占比不高的细胞类型。
  3. 很多时候都是先做PCA/tSNE 之后再判断是否移除掉一些细胞,或者把之前移除掉的细胞重新加回来。然后再去做降维。就这样循环往复。

如何过滤基因

接下来就是要讨论如何过滤基因,对于绝大多数情况,我们不会用所有的基因去进行降维分析,所以需要进行基因集合的选取。

基因集的设定是基于:

(1)表达量高于一定阈值的基因
(2)在整个细胞样本中存在差异变化的基因
(3)用先验的知识去挑选基因
(4)bulk RNA测序中已经鉴定出来的差异基因。
(5)t-SNE降维时只选取前几个PC

有些时候,有些基因的表达异常高,这对后续数据的Normalization带来影响,有时也会考虑过滤掉。比如nulcear lncRNA ,、actin,、hemoglobin,、线粒体RNA和核糖体RNA。

有一些基因要根据情况需要进行移除,以下三点要根据课题情况来决定是否保留或者去除。

  1. 线粒体RNA
  2. 任何可能有偏好性的基因:细胞周期基因等
  3. 对细胞分型可能没有帮助的基因:比如核糖体基因

批次效应的处理

单细胞RNA测序最棘手的就是批次效应(batch effect)。batch effects 可以发生在:

  1. 不同的实验
  2. 不同的动物/病人/细胞中
  3. 测序的lane中

不同批次的样品或许采用的质控标准也应该不一样,通过PCA的结果,可以查看结果中是否有明显的批次效应。

总结

  • 精心设计你的实验,你寻找的生物学信号不会被技术噪音干扰掉
  • 小心地选择什么样的细胞和基因应当保留,什么应当移除掉
  • 要小心鉴定含有多个细胞的droplet
  • 做完降维和聚类后,重新进行QC统计
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容