今天我们来介绍下数据预处理 ,示例数据 an mESC dataset (Kolodziejczyk et al., 2015)
Identifying cell-containing droplets/microwells
这里在介绍先单细胞中barcode的概念:正如“包裹过程”那幅图所示,我们控制条件,每次输入同一种类型的cell进入管道,此时输入的珠子上带有相同的barcode;那我们改变条件,让另一种细胞既然管道,此时输入的珠子带有另一种barcode。
以此类推,那么最终相同细胞类型的细胞带有相同的barcode,那么这个barcode就可以作为区分细胞类型的依据
我们知道单细胞测序比较重要的是如何将完整的细胞给分选出来
简单来说就是每个cell吸附在一个珠子内(该cell必须是完整的),但是由于实验的问题,有些珠子内的细胞不完整,那么这个细胞的RNA量就会很少,对后续建库测序会产生很大的影响
那么我们可以在R里面利用barcode来区分细胞类型,以观察每种类型的细胞的数据量,以及计算每个细胞的数据量
STAR
STAR是个序列比对软件,怎么使用,可以参阅一下他们的说明书,STAR是 Pseudo-Alignment的工具,
其mapping原理是采用k-mers的方式而不是将reads直接mapping到参考基因祖上;因为利用k-mers的方法比对速度更快,并且出错率更小
k-mers:比方说 ATCCCGGGTTAT,第一个7-mers为ATCCCGG
那么一条reads可以分成6个更短的7-mers:
这样处理以后在比对到参考基因组,这样就会快一些,且比方说这个reads的第一个base错了,对于7-mers来说,也只有第一个7-mers是错的
而下面这幅图说明了一条read比对到多个isoform的情况,t1,t2,t3表示不同的isoforms
CRAN\Github\Bioconductor
我们简单介绍一下如何在R上装包:
#CRAN
install.package("包名")
#Github
install.packages("devtools")
require("devtools")
devtools::install_github("tallulandrews/M3D", ref="nbumi")
#Bioconductor
source("https://bioconductor.org/biocLite.R") biocLite("edgeR")
其中在Github中下载,我们需要用devtools的内置函数才能安装,函数内加文件夹和文件即可
而在Bioconductor下载则是source()加网址,用bioLite()加包名即可
而目前在R中分析single cell RNA-seq 的包有 SingleCellExperiment , scater,Seurat这三个
其中SingleCellExperiment我在之前的推送中讲解过
而scater的分析流程如下: