对于我们的10x数据上游分析,主要靠cellranger
拆分bcl
安装bcl2fastq
这是它的官网:https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html
我们可以参照上面的安装过程
我们一般下载这一个,然后新建一个文件夹,拖到自己的工作站上
那么在一个新的文件夹下
#新建build文件夹
mkdir build
#新建install文件夹
mkdir install
#解压
unzip bcl2fastq2-v2-20-0-tar.zip
tar -xvzf bcl2fastq2-v2.20.0.422-Source.tar.gz
#进入build文件夹
cd build
#配置
/...../bcl2fastq/src/configure --prefix=/home/username/.../bcl2fastq/install
#安装(在build文件夹下)
make
make install
其中,build是你配置的文件夹,install是你安装的文件夹,解压后的bcl2fastq是存放源的文件夹
如果安装过程出错了,那可能是有些依赖库你的系统上没有,那么缺哪个就安装哪个就可以了
如果嫌麻烦的同学可以利用conda安装
conda install -c dranew bcl2fastq
然后添加到环境里即可
cellranger安装(V3)
安装地址:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
按照官网上安装即可
解压后,这里我偷了个懒,把bin/bcl2fastq这个二进制可执行文件拷贝到了cellranger-3.1.0/cellranger-cs/3.1.0/bin/下
这样就不用加到环境里面了
文件下载
下载测试的地址如上
作为测试,可以先下载bcl文件
wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
tar zxvf cellranger-tiny-bcl-1.2.0
mv cellranger-tiny-bcl-1.2.0 tiny_bcl
接下来是csv文件
接着就可以拆分了
cellranger mkfastq --id=tiny-bcl \
--run=tiny_bcl \
--csv=cellranger-tiny-bcl-simple-1.2.0.csv
--id表示输出文件路径,
--run表示输入文件路径,
--csv即为你下载illumina公司的csv文件
输出结果在tiny-bcl/out/fastq_path/下
整合参考基因
首先我们从Ensemble上下载对应物种的gtf文件和fasta文件
#filter
cellranger mkgtf gtf filtered.gtf
--attribute=gene_biotype:protein_coding \
--attribute=gene_biotype:IG_LV_gene \
--attribute=gene_biotype:IG_V_gene \
--attribute=gene_biotype:IG_D_gene \
--attribute=gene_biotype:IG_J_gene \
--attribute=gene_biotype:IG_C_gene \
--attribute=gene_biotype:TR_V_gene \
--attribute=gene_biotype:TR_D_gene \
--attribute=gene_biotype:TR_J_gene \
--attribute=gene_biotype:TR_C_gene
cellranger mkgtf genomic.gtf genomic_coding.filtered.gtf
--attribute=gene_biotype:protein_coding
过滤的目的是除去一些假基因等一些在分析中没有什么用的注释,代码中的gtf指的是过滤前的gtf文件,filtered.gtf 指的是过滤后的gtf文件
建立索引
cellranger mkref
--genome=GRCz11_coding
--fasta=/.../GRCz11_genomic.fa
--genes=/.../genomic_coding.filtered.gtf
其中,
--genome是输出的文件,
--fasta是你下载参考基因组文件,是以fa结尾的文件,
--genes是过滤的gtf文件
貌似我在操作中--genome这个参数加不了绝对路径,不清楚是怎么回事
count计数
cellranger主要是利用STAR进行比对,然后在分选计数
在这里千万注意文件的命名,这里对命名要求是真的严格
命名:
存放测序数据fastq文件的文件夹的命名一定要和测序数据的文件命名相同,比方说
测序数据命名如上图,那么我们取_S1前面的TES42来做该文件夹的命名,如下图所示
cellranger count
--id=output_test
--transcriptome=/.../GRCz11_coding/
--fastqs=/.../TES42/
--sample=TES42
--force-cells=8000
其中:
--id是你输出路径文件夹,
--transcriptome是你之前过滤的参考基因组文件夹,
--fastqs是测序文件路径,写到存放的文件夹即可,
--sample要和你存放测序文件夹的文件名相同,
--force-cells是你的复现细胞数和实验设计有关
这是运行完的文件:
那么我们的下游分析(monocle和Seurat)的输入文件在哪里呢?
在out/filtered_feature_bc_matrix文件夹下
那么这三个就是下游分析的input:
参考:https://www.jieandze1314.com/post/cnposts/pre-learn-scrna-3/