以提供的人类体盘细胞为例子(同步我们的学习进度更新)
配置环境
安装cellranger为了上游数据处理,获得matrix文件和bam文件
conda环境管理,安装单细胞下游分析系列工具主要包括Seuart, scanpy, scVelo等
准备数据和流程概述
- 首先原始数据处理,通过cellranger count获得matrix文件和bam文件
#### 整理文件+规范命名###
cd SO.20240613002; mkdir raw_fastq
find . -name '*.fq.gz' -type f | xargs -I {} cp {} ./raw_fastq
mv TA1_1.fq.gz TA1_1_1.fq.gz; mv TA1_2.fq.gz TA1_1_2.fq.gz # 和别的统一一下
files=`ls raw_fastq`
for i in ${files[@]};do
echo ${i}
fileName=`basename $i '.fq.gz'`
IFS='_' read -r part1 part2 part3 <<< ${fileName}
sampleName=${part1}
sampleNumber=${part2}
readType=${part3}
#echo $sampleName, $sampleNumber, $readType
#echo ${sampleName}_S${sampleNumber}_L001_R${readType}_001.fastq.gz
mv ./raw_fastq/${i} ./raw_fastq/${sampleName}_S${sampleNumber}_L001_R${readType}_001.fastq.gz
done
bash ./run_cellranger.sh
#!/bash/bin
samples=(TA{1..6})
for sample in "${samples[@]}"; do
echo "Processing: $sample"
cellranger count --id=${sample} \
--fastqs=./raw_fastq \
--transcriptome=$HOME/00.basic/02.ref_genome/human_GRCh38/refdata-gex-GRCh38-2024-A \
--sample=${sample} \
--create-bam=true \
--nosecondary \
--localcores=8 \
--localmem=80
done
注意修改参考基因路径transcriptome和运行的内核数目localcores和内存大小localmen,取决于你的服务器。
- 单细胞聚类和注释(Seurat/scanpy)。提取得到感兴趣的亚群范围(optional)
- 提取将聚类处理好的文件信息(包括umap信息+分群信息)成为loom文件格式(python和R都可以读)
- 运行scVelo和结果解读
- 基于scVelo结果的后续分析