下载
1.sratoolkit
知道数据的SRR号,使用prefetch命令进行下载,即可以下载单个数据,也可以进行批量下载。下载单个数据可直接使用prefetch SRRxxx 命令进行下载;批量下载时,需要将所有数据的SRR号放在一个txt文件中,使用prefetch
--option-file SRR_Acc_List.txt命令进行下载。
使用sratoolkit下载的数据是sra格式,需要转换为fastq格式再进行后续的操作。单端测序的数据使用fastq-dump SRRxxx.sra命令进行转换,双端测序的数据使用fastq-dump –split-3 SRRxxx.sra命令进行转换。
2.Aspera
NCBI提供的sratoolkit虽然下载数据很稳定,但是下载速度比较慢,大多数情况下都会使用Aspera进行下载,aspera可以直接下载fastq文件。首先需要进入EBI(https://www.ebi.ac.uk/)官网,如果是双端测序的数据,一个SRR号会对应两个fastq文件的下载链接,形如:fasp.sra.ebi.ac.uk:/vol1/fastq/SRR971/004/SRR9713114/SRR9713114_1.fastq.gz;
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR971/004/SRR9713114/SRR9713114_2.fastq.gz
单个文件下载可直接使用命令:
ascp -T -l 200M -i~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
--host=fasp.sra.ebi.ac.uk --user=era-fasp--mode=recv \
/vol1/fastq/ SRR971/004/SRR9713114/SRR9713114_1.fastq.gz /
批量下载时,需将所用文件的下载链接放在一个list文件中,然后使用命令:
ascp -i~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 300M –T –P33001 –k1 –mode recv–host fasp.sra.ebi.ac.uk –user era-fasp –file –list file.list.~/.aspera/connect/bin/SRX7539347/
处理
cellranger
cellranger包含四种处理命令:
cellranger mkfastq:可以将一个或多个lane中的混样测序样本按照index标签生成对应的fastq文件。
cellranger count: 利用mkfastq生成的fq文件,进行比对(基于STAR)、过滤、UMI计数。利用细胞的barcode生成gene-barcode矩阵,然后进行样本分群、基因表达分析。
cellranger aggr :接受cellranger count的输出数据,将同一组的不同测序样本的表达矩阵整合在一起,比如tumor组原来有4个样本,PBMC组有两个样本,现在可以使用aggr生成最后的tumor和PBMC两个矩阵,并且进行标准化去掉测序深度的影响。
cellranger reanalyze :接受cellranger count或cellranger aggr生成的gene-barcode矩阵,使用不同的参数进行降维、聚类。它的结果主要是包含有细胞信息的BAM, MEX, CSV, HDF5 and HTML文件
由于下载的数据本身就是fastq文件,不需要进行cellranger mkfastq这一步,只需要修改fastq文件的名字,改为cellranger可以识别的名字,例如:SRR973158_S1_L001_R1_001.fastq.gz
SRR973158_S1_L001_R2_001.fastq.gz
在cellranger count中需要导入注释文件,人和小鼠的注释文件可以直接从10X的官网下载,网址:
(https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest?)
然后使用以下命令进行分析
ref=/home/zzz/cellranger/cellranger-6.0.1/refdata-gex-GRCh38-2020-A
cr=/home/zzz/cellranger/cellranger-6.0.1/bin/cellranger
d=SRR9713160
$cr count --id=$id
--transcriptome=$ref--fastqs=/home/zsh/.aspera/connect/bin/SRP215370 --sample=$id
--nosecondary
--localcores=15
--localmem=30
输出文件:
filtered_gene_bc_matrix目录下包含有barcode.tsv.gz、feature.tsv.gz、matrix.mtx.gz是下游Seurat分析的输入文件。在Seurat可以直接使用Read10X函数将filtered_gene_bc_matrix目录输入。