数据挖掘推荐
单细胞转录组测序(Single-cell RNA Sequencing )通过在单个细胞水平上进行测序,解决了用组织样本无法获得不同细胞间的异质性信息或样本量太少无法进行常规测序的难题,为科学家研究动植物单个细胞的行为、机制等提供了新的方向,为我们理解遗传、发育、疾病机理等提供了新的研究工具。针对课题的数据挖掘需求,对于信息分析结果给出以下建议:
1、细胞分类与定义
1.1 聚类与分类的定义
聚类(根据距离矩阵)是将相似的事物聚集在一起,而将不相似的事物划分为不同的类别的过程。和分类的差别是,聚类往往是一种无监督的方式,分类需要从样本中学习分类的规则进行分类。即分类是我们已经知道了事物的类型,提取相关特征进行分类,而聚类仅仅是将相似的事物聚集在一起。
1.2 聚类方法
首先关注的是细胞聚类的结果,即应用非监督聚类算法的细胞分群。10X genomics官网提供的Cell Ranger结果中采用Graph-based和K-means两种细胞分群结果,可以满足大部分样本类型的sc-RNA数据探索与分析。我们的结果主要基于Cell Ranger提供的算法来做分析,并提供10X单细胞数据探索交互软件:Loupe Cell Browser的使用说明文档,方面老师以交互进行数据探索分析。随着单细胞转录组测序技术的发展,更多的聚类算法与相应的软件包被开发出来,如果Cell Ranger的结果不太符合实验预期,我们的高级分析部分可尝试采用Seurat、SC3、等软件包提供的算法再次进行细胞分群。
对于多样本单细胞整合分析(integrative single-cell analysis),可尝试采用Seurat-CCA方法进行分析,提取共有数据结构来进行降维。目前sc-RNA一个技术难点是在多个样本整合分析时需要考虑批次效应(batch effect),除了Seurat之外,其它工具Scran和Scrone也可以用来纠正批次效应。但是,批次矫正会带来假阳性的问题,所以针对样本采用何种纠正工具需要非常谨慎。
1.3 细胞定义:
目前细胞定义的研究限于技术发展还是存在一定主观性。细胞定义的原则掌握三点:
第一,细胞定义的关键在于:differentially expressed marker genes,其中涉及差异和marker两个因素。Maker Cell Type Genes一般是在该研究领域经研究公认的能够鉴定细胞类型的基因。差异是指此亚群细胞与其他群相比,存在显著差异的基因。
第二,不管何种细胞聚类方法,以能够定义细胞类型的聚类方法为优。推荐优选seurat聚类结果进行分析。
第三,细胞定义先大类后小类,先将主要细胞群划分出来,比如T细胞、B细胞,再在相关细胞群中细分细胞小类,例如在T细胞群中细分Naive、Memory等,也可对某一大类细胞进行再分群,细化细胞亚群。
基于以上三点,推荐从两个方面入手进行细胞定义:一是在差异基因结果中筛选marker基因,二是从marker基因入手,定位其所在主要细胞群。
总之,目前细胞定义仍然是单细胞转录组数据分析中的一个挑战,需要汇总marker基因,结合差异与marker基因,对不同细胞聚类结果进行定义,循环往复,直至得到最优的细胞定义结果。目前已有相关的R包如SingleR可以为细胞群定义提供参考,它通过每个cluster与已知细胞类型的表达谱的相似性来定义细胞类型。
2 拟时分析
拟时分析适用于发育生物学中的发育轨迹研究,或者肿瘤微环境中免疫细胞状态的变化研究等。拟时分析推荐在细胞定义完成的基础上进行,有自己预设的起点、终点或者分化轨迹。
基于Seurat分析的结果采用monecle2进行细胞轨迹推断分析(又称拟时(pseudotime)分析),可以推断出发育过程细胞的分化轨迹或细胞亚型的演化过程,在发育相关研究中使用频率较高。主要基于关键基因的表达模式,在拟时间中对单个细胞进行排序,模拟出细胞随拟时间发展发育过程的动态变化。
拟时(pseudotime)分析,又称细胞轨迹(cell trajectory)分析,通过拟时分析可以推断出发育过程细胞的分化轨迹或细胞亚型的演化过程,在发育相关研究中使用频率较高。主要基于关键基因的表达模式,在拟时间中对单个细胞进行排序,模拟出细胞随拟时间发展发育过程的动态变化。monocle是一款常用的拟时分析软件,其计算细胞的相关性得到最小生成树,找到最小路径,然后把其它的所有数据点投射到最小路径,最终得到细胞分化轨迹图的算法。
3 数据可视化
我们提供10X单细胞数据探索交互软件: Loupe Cell Browser的使用说明文档,方便老师对数据进行可视化以及相关的分析,Cellranger结果可以直接打开查看。目前sc-RNA-seq数据可视化除了Loupe Cell Browser之外,主要是基于R语言生态的seurat,monocle,ggplot2等包。
流形学习方法的研究目的是为了探索数据集的内部结构或内在规律。流形学习可以从高维非线性数据中探测出其本质特征,通过局部结构学习可以将高维数据的局部几何结构信息在低维空间尽可能地保留下来。由于sc-RNA-sequening数据高纬度、稀疏性的特点,在数据分析中常用到流形学习算法来做数据可视化展示,经典的是t-SNE算法。目前学术界提出一种新的流形学习算法:uniform manifold approximation and projection (UMAP),采用非线性降维算法,与t-SNE方法相比,UMAP的细胞分群效果更为清晰显著,对多分支的细胞轨迹展示也更为清晰。
此外,如果能够定义出细胞类型,结合不同细胞类型根据相互作用关系receptor-ligand,可以进行受体-配体分析,绘制网络图。单细胞转录组在遗传、发育、疾病机理研究中应用越来越广泛,我们愿意与老师一起探索单细胞水平上的生命奥秘。
1. Lun AT, McCarthy DJ, Marioni JC. A step-by-step workflow for low-level analysis of single-cell RNA-seq data. Version 1. F1000Res. 2016 Aug 31;5:2122.
2. Risso D, Ngai J, Speed TP, Dudoit S. Normalization of RNA-seq data using
factor analysis of control genes or samples. Nat Biotechnol. 2014 Sep;32(9):896-902.
3. Xiaojie Qiu, Qi Mao, Ying Tang, Li Wang, Raghav Chawla, Hannah Pliner, Cole Trapnell. Reversed graph embedding resolves complex single-cell trajectories. Nature Methods volume 14, pages 979–982 (2017).
4. Manu Setty, Michelle D Tadmor, Shlomit Reich-Zeliger, Omer Angel, Tomer Meir Salame, Pooja Kathail, Kristy Choi, Sean Bendall, Nir Friedman and Dana Pe'er. Wishbone identifies bifurcating developmental trajectories from single-cell data. Nature Biotechnology volume 34, pages 637–645 (2016)
5. Gioele La Manno, Ruslan Soldatov, Amit Zeisel, Emelie Braun, Hannah Hochgerner, Viktor Petukhov, Katja Lidschreiber, Maria E. Kastriti, Peter Lönnerberg, Alessandro Furlan, Jean Fan, Lars E. Borm, Zehua Liu, David van Bruggen, Jimin Guo, Xiaoling He, Roger Barker, Erik Sundström, Gonçalo Castelo-Branco, Patrick Cramer, Igor Adameyko, Sten Linnarsson and Peter V. Kharchenko. RNA velocity of single cells. Nature volume 560, pages 494–498 (2018).
6. Etienne Becht, Leland McInnes, John Healy, Charles-Antoine Dutertre, Immanuel W H Kwok, Lai Guan Ng, Florent Ginhoux and Evan W Newell. Dimensionality reduction for visualizing single-cell data using UMAP. Nature Biotechnology volume 37, pages 38–44 (2019).
7. V ladimir Yu Kiselev, Kristina Kirschner, Michael T Schaub, Tallulah Andrews, Andrew Yiu, Tamir Chandra, Kedar N Natarajan, Wolf Reik, Mauricio Barahona, Anthony R Green & Martin Hemberg. SC3 - consensus clustering of single-cell RNA-Seq data. Nature Methods volume 14, pages 483–486 (2017).
8. Daniel A. Skelly, Galen T. Squiers, Micheal A. McLellan, Mohan T. Bolisetty, Paul Robson, Nadia A. Rosenthal, Alexander R. Pinto. Single-cell transcriptional profiling reveals cellular diversity and inter-communicaiton in the mouse heart. Volume 22, Issue 3, pages 600-610 (2018).