欢迎关注同名公主号:BBio
一个好的数据就该和10X官网中3k pbmc的数据一样,分析起来如此丝滑。技术缺陷和实验步骤究竟制造了哪些问题,而生信又该如何解决呢?在此从细胞悬液制备到cell calling总结一下可能出现的问题。
//实验原理
先考古一下2017年10x Genomics 单细胞转录组的技术文献:Massively parallel digital transcriptional profifiling of single cells。
10x Genomics以droplet-based的方法为基础,开发出每个样本上万个细胞同时定量的3'端 mRNA测序技术。可以同时处理8个样本,6分钟完成,并有约50%的细胞捕获效率。在一个包含8个channel的液体环境的芯片上,带有功能序列的凝胶珠首先和细胞及试剂接触,随后使用有滴包裹进行反转录。功能序列包括测序接头、引物、14bp的barcode、10bp的UMI、30bp的oligo-dT序列。
v2 Protocol :16bp的barcode、10bp的UMI、30bp的oligo-dT。Read1包含barcode和UMI序列,Read2包含插入序列。
v3.1 Protocol :16bp的barcode、12bp的UMI、30bp的oligo-dT。
//细胞悬液制备
从细胞悬液的制备开始,就有诸多因素影响后续分析。实验是生信的大冤种。
- 细胞凋亡、细胞损伤:线粒体表达过滤阈值相关。凋亡细胞MT线粒体基因表达升高,细胞质量差,细胞膜可能破裂,RNA丢失。但是线粒体基因表达高的细胞一定是低质量细胞吗?不同组织,线粒体表达也是有很大区别的,肝脏、心脏的表达相对较高。所以,阈值的设定要具体情况具体分析了,大部分文献采用的过滤标准5-20%。
1.Classification of low quality cells from single-cell RNA-seq data
2.The effects of death and post-mortem cold ischemia on human tissue transcriptomes
- 细胞悬液污染:细胞污染相关。如果制备细胞悬液时细胞破裂,mRNA散落在环境中,导致GEMs普遍污染。污染是必然存在的,轻微污染无影响,分析中只能观察到严重污染,所有细胞都表达其它细胞的marker基因。但是这种污染是细胞类型普遍、样本特异的。
- 组织裂解:细胞污染相关、Doublet相关。组织相对于pbmc多了一步裂解步骤,过度裂解可能细胞损伤,裂解不充分可能细胞黏连,最终形成Doublet或者Multiplet。Doublet的鉴定也难有统一的标准,可以分析前使用软件鉴定,也可以分析是人工鉴定,但敏感性降低。
1.Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data
//细胞捕获文库制备
没有绝对的事情,再高端的技术也会有各种各样的问题。初次接触单细胞技术的培训是几年前了,当时却没有想过可能出现的一些问题。宣传说是细胞一个一个的通过,转录本通过UMI捕获,听者都以为是100%的事情。
- 细胞大小:细胞太大无法捕获。10X官方文档指出直径>30μm或者难裂解的细胞建议提取细胞核测序。
https://kb.10xgenomics.com/hc/en-us/articles/218170543-What-is-the-range-of-compatible-cell-sizes-
- 细胞悬液浓度:Doublet相关。浓度太大增大Doublet的比率,相同数据量的情况下,测序深度降低。
- 细胞mRNA含量:Neutrophil细胞因为RNA含量较低,而RNases和其他抑制化合物的水平相对较高,并且对降解很敏感,如果需要得到高质量的Neutrophil细胞,那在实验时就要采用更个性化的操作。
- doublet:双细胞在目前的单细胞技术中普遍存在,10X官网也给出了一些鉴定Doublet的方法。
2.Benchmarking Computational Doublet-Detection Methods for Single-Cell RNA Sequencing Data
- dropout:单细胞转录组的主要问题就是dropout。对于一个GEM来说,细胞裂解释放的mRNA不可能全部被凝胶珠捕获,就会对本来有表达的基因,尤其是低表达的基因造成影响。imputation的软件有很多,但是否应该使用是个问题。
1.Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data
//测序深度
海量的单细胞测序,应该使用怎样的测序深度?既要考虑测序成本、也要考虑分析效率,应该测更多的细胞还是更深的深度,好在10X 已经给了答案。通过对每个细胞50k reads的数据进行抽样,验证每个策略的表现。
- 测序深度对cell calling基本没有影响。
- 20k以上的深度是个不错的选择,Total Genes的数量曲线越来越平滑。
- 对细胞数目抽样的结果表明在细胞分类时准确度下降。而且细胞数量较少的细胞类型因为转录本捕获效率即dropout的问题,对分析也会产生影响。
//细胞calling
文献速递||R包DropletUtils-基于droplet的单细胞转录组数据cell calling方法
- 细胞上样量:期望细胞数expect-cells参数的选择可能导致损失细胞,或者鉴定到假细胞。