刘小泽写于18.9.29
上一次是理论知识和准备工作,这次开始软件安装和测试
软件安装和检测
cellranger这个软件内容十分丰富,整合了大量的第三方工具,因此解压需要一段时间,解压完成后导入环境变量,按照官方要求,还要进行安装检测,看一下安装是否完整;另外把下载的数据库文件也解压一下
cd /db/10X
tar -xzvf refdata-cellranger-ercc92-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz
cd /opt
tar -xzvf cellranger-2.2.0.tar.gz
export PATH=/opt/cellranger-2.2.0:$PATH
cellranger testrun --id=tiny # 32核检测大约8分钟,检查结束如下图,会生成tiny/tiny.mri.tgz这样的文件
cellranger主要包括:
# Usage:
cellranger mkfastq #将Illumina得到的原始BCL文件转为FASTQ
cellranger count # 比对、过滤、条形码和UMI计数
cellranger aggr # 针对多个样本的情况,把count合并而且标准化成相同的测序深度之后,再计算gene-barcode矩阵
cellranger reanalyze #将count或者aggr得到的gene-barcode 矩阵进行降维、聚类
# 10X Genomics的专属算法和RNA测序比对软件STAR结合,可以得到BAM、MEX、CSV、HDF5、HTML的标准格式的结果
下载测序数据
cellranger要求fastq格式的数据,可以通过cellranger mkfastq转换、illumina的bcl2fastq转换、已发布数据集、cellranger bamtofastq转换得到
下载已有的数据集:https://support.10xgenomics.com/single-cell-gene-expression/datasets,选择小鼠1k Brain Cells from an E18 Mouse数据集,来自E18小鼠皮层、海马区和脑室下区,结果检测到了931个细胞
nohup wget http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar &
# total 5.4G
37M Aug 25 2017 neurons_900_S1_L001_I1_001.fastq.gz
643M Aug 25 2017 neurons_900_S1_L001_R1_001.fastq.gz
1.8G Aug 25 2017 neurons_900_S1_L001_R2_001.fastq.gz
239M Aug 25 2017 neurons_900_S1_L002_I1_001.fastq.gz
646M Aug 25 2017 neurons_900_S1_L002_R1_001.fastq.gz
1.8G Aug 25 2017 neurons_900_S1_L002_R2_001.fastq.gz
文件的命名规则:[Sample Name]
S1_L00 [Lane Number]
[Read Type]
_001.fastq.gz。
比如这里sample name是neurons_900,lane有两个1和2,
Read type有三种:I1
Sample index read也就是cell-barcode;R1
read1((UMI) reads);R2
read2
与普通fastq文件相比,单细胞RNASeq fastq文件包含条形码和唯一分子标识符(UMI)的额外信息。从文件大小也能看出来,只有read2是转录本序列
cellranger count --id= mm_neurons \ #生成的文件都放在这个名字的目录下(必选)
--fastqs=/project/scRNA-seq/10X/raw/neurons_900_fastqs \ #(必选)
--transcriptome=/db/10X/refdata-cellranger-mm10-1.2.0 \ #(必选)
--expect-cells=900 #(可选)期望得到的细胞数
--localcores 10 \ # CPU
如果数据包括许多sample,可以指定--sample=SMAPLENAME
,另外还可以指定lane的编号,如--lanes=1
运行成功会提示:
目录 | 描述 |
---|---|
analysis | 降维PCA、聚类、差异分析(全是CSV矩阵) |
cloupe.cloupe | Loupe Cell Browser可视化及分析文件 |
filtered_gene_bc_matrices | 过滤后的gene-barcode矩阵(只包含MEX格式) |
filtered_gene_bc_matrices_h5.h5 | 过滤后的gene-barcode矩阵(HDF5格式) |
molecule_info.h5 | 使用cellranger aggr产生的信息,作用是把样本组合成更大的数据集 |
possorted_genome_bam.bam | reads比对到带有barcode注释的基因组和转录组 |
possorted_genome_bam.bam.bai | bam的index信息 |
raw_gene_bc_matrices | 未过滤的gene-barcode矩阵 |
web_summary.html | 网页版总结(下图) |
Cellranger的一些知识
比对流程
- 基因组比对:使用STAR将reads比对到基因组的过程是考虑剪切位点的,然后cellranger将转录组注释信息GTF分解成外显子、内含子以及基因间的区域,并给出比对类型的显著性。如果比对的位置与外显子有超过50%的交叉,那么就认为它比对到了外显子;如果不是外显子并且和内含子有交叉,就认为是内含子,否则就是基因间区域
- MAPQ调整:
MapQ = -10 log10(P)
,比如结果为30,那就是1/1000的概率会出现这个比对结果。对于比对到一个外显子位点但同时还比对到一或多个的非外显子位点,优先考虑比对到外显子,MAPQ 255值为255时果断认为read比对上了外显子 - 比对转录组:比对上外显子的read继续与有注释的转录本比对,寻找兼容性。与转录组的外显子匹配并且比对到同一条链上,就可以被认为比对到了转录组;如果只匹配一个基因的注释,那么它的比对是唯一的并且可信度高。只有比对到转录组可信度高的reads才能用于UMI计数
了解下分子条形码/标签
分子条形码又称分子标签(MolecularBarcode, 又称UID Unique identifiers, UMI Unique molecularidentifiers)是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,来区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除 DNA 聚合酶、扩增以及测序过程中所引入的错误
一般UMI由大约10nt的随机序列(如:NNNNNNNNN)或者简并碱基(根据密码子的兼并性,常用一个符号代替某两个或者更多碱基,如NNNRNYN)。它和样本标签(sample barcode)不同,UMI是针对一个样本的不同片段,而样本标签是为区分不同样本 加上的标签序列。
一个样本只能有一个相同的样品标签,但可以有成千上万的分子条形码
- 同一个样本的 DNA 片段,每一个片段都接上一个特定的标签序列;
- 随目标序列一起经过文库构建、PCR 扩增,然后被一同测序;
- 最终测序结果中,带有不同UMI的序列,代表它们来自不同的原始 DNA 片段分子;带有相同UMI的序列,表示它们是从同一条原始的 DNA 片段扩增而
设置UMI目的:PCR 和测序过程中的错误是随机发生的,根据UMI可以去除冗余,降低低频突变的假阳性率
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com