单细胞分析流程之Cell Ranger
大家好,我是新加入的小编Immujent,很高兴能够在这里和大家一起学习很分享单细胞的分析流程,以后就请大家多多关注啦~
话不多说,直接上干货!
BEGINCell Ranger
相信做单细胞的小伙伴对Cell Ranger这个软件都不陌生,我们今天就来了解一下Cell Ranger的安装和使用方法。
Cell Ranger是10X Genomics为单细胞分析专门打造的分析软件,直接对10X的下机数据进行基因组比对、定量、生成单细胞矩阵、聚类以及其他的分析等。所以Cell Ranger能做的分析有很多,我们今天主要学一下Cell Ranger的安装以及对单细胞RNA-Seq数据的定量。
Cell Ranger的官网:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
1 Cell Ranger的下载与安装
1. 首先进入Cell Ranger官网,点击对下方的Download Link链接;
如果是第一次进入下载界面,需要填写一些基本信息,填写完后点击continue即可(如下:)
2. 根据需求下载Cell Ranger,可使用curl或者wget命令下载(在linux系统中运行黑框中的内容即可);
注:默认下载最新版的Cell Ranger,如果需要选择之前的版本可点击右下方的红框,选择想要的版本(如下图);
3. 安装包下载完之后直接使用tar命令进行解压即可。
tar -xzvf xxx.tar.gz
这样就完成Cell Ranger的安装啦,下面给大家看一下小编安装完的结果(小编之前使用的是5.0.1的版本,因为那个课题一直在做,所以也就没有更新Cell Ranger的版本了,当然也建议大家一个课题最好保持使用软件版本的一致哈~)
2 使用Cell Ranger进行单细胞转录组测序数据(scRNA-Seq)的定量
因为小编是做单细胞转录组方向的,所以下面介绍一下小编常用的Cell Ranger命令---cellrange count。
count也是cellrange中一个很重要的命令,用来对单细胞转录组数据进行基因组比对,细胞定量最终得到用后下游分析的单细胞表达矩阵(默认情况也会对表达矩阵进行聚类)。
在做定量之前,我们首先需要准备2组文件:原始fq文件以及物种的References(其中包括参考基因组序列、gtf文件以及star的索引文件)。
1. 原始fq文件
cellranger的输入文件格式是fq格式,并且文件的命名也是有要求,文件命名格式如下:
**[Sample Name]**
S1_L00**[Lane Number]**
**[Read Type]**
_001.fastq.gz
如果fq的文件名格式不对,在运行的过程中会出现错误,所以最开始需要确定文件名的格式以及进行修改。小编的一个习惯是重新创建一个目录并且用软连接将原始文件链接到新的目录中,这样做的好处是首先不会改变原始文件的名字(害怕修改了文件名后有些文件没有同步,导致最后找不到具体的文件),其实也不会占用很多存储(毕竟我们还要在夹缝中生存),下面就是小编使用的风格:
2. 物种的References
第二个需要准备的文件就是物种的References。
好消息就是Cell Ranger官网已经为我们提供了人和小鼠的References,如果大家的样本是人或者小鼠的某些细胞可以直接去Cell Ranger官网进行下载。
下载流程和Cell Ranger软件下载流程一致,其中也是有很多版本的References可供大家选择,下载后解压就可用了;
下载网页:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest?
那么问题来了,如果我研究的是其他物种,那怎么构建这个References?
cellranger的mkref就是这么一个功能,可用对其他的物种构建cellranger需要的References格式,只需要准备物种的参考基因组序列和gtf注释文件就可以直接运行。
因为之前小编做个拟南芥单细胞的数据,所以这里就以拟南芥为例子构建References。
mkdir refdata-cellranger-Arabidopsis-TAIR10 #首先创建存放References的目录,这是小编的一个习惯,也推荐大家在运行不同步骤的时候能够创建专门的文件,这样也便于文档管理。
具体命令如下:
cellranger mkref \
--genome=TAIR10 \
--nthreads=10 \
--fasta=TAIR10.fa \
--genes=TAIR10_GFF3_genes.miRBase20.gtf
--genome:生成索引的目录
--fasta:基因组序列
--genes:基因注释文件(gtf格式)
运行完上面的命令就构建完索引啦~
这里小编还要推荐一个运行脚本的命令,希望能够对大家有帮助~
我们可以使用vi编辑器,将上面的内容存放在一个shell脚本中,然后使用后面运行shell脚本,这样后台在运行的同时,我们仍然可以在当前界面进行其他操作,并且网络不稳定的时候也不会影响我们的运行,所以小编非常推荐。下面就给大家看看小编的脚本格式啦(脚本名:index_test.sh)~
投后台的命令是:
nohup sh index_test.sh >index_test.sh.o 2>index_test.sh.e &
这样的话中间的输出文件会保存在index_test.sh.o,如果脚本报错就会保存在index_test.sh.e中。我们可以通过查看这两个文件了解运行的进展。可以通过使用jobs命令查看后台运行的命令是不是还在。
References构建完后就会生成TAIR10目录,并且该目录下的文件有:
3. 定量
在所有文件都准备好了以后,就可以使用count对单细胞转录组数据进行定量啦。
具体命令如下(一般使用默认参数):
cellranger count \
--id=sample_test \
--transcriptome=/xx/ AT \
--fastqs=/xxx/fastq_path \
--localcores=8 \
--localmem=64
参数解释:
id:样本名(唯一性)
transcriptome:上一步创建的索引的目录名
fastqs:下机数据的目录名
localcores:内核
localmem:内存
下面是小编的脚本,和上面是同样的脚本格式~
成功运行之后会生成sample_test目录(脚本中id参数后面输入的内容),最终结果都保存在sample_test/outs中。
目录
analysis:cellranger聚类的结果
filtered_feature_bc_matrix:过滤后的单细胞表达矩阵(后续可以对接到seurat中)
raw_feature_bc_matrix:过滤前的单细胞表达数据(一般不怎么使用)
文件
possorted_genome_bam.bam:单细胞比对的bam文件,其中包含了每个reads的信息
web_summary.html:报告网页(单细胞定量后的报告,包括检测到的细胞数、基因数、UMI、分群等等)
END Cell Ranger
以上就是cellranger的下载、安装以及初步的使用流程,希望能够帮到大家啦~
我们下期再见