因为我是主要做植物的,所以先找了个拟南芥的例子(A single-cell RNA sequencing profiles the developmental landscape of Arabidopsis root)。
首先下载数据:
从文章给出的下载链接下载:
https://bigd.big.ac.cn/gsa/browse/CRA001559/CRR054647
下载完数据,我们可以发现2个文件:
CRR054647_f1.tar.gz
CRR054647_r2.fastq.gz
解压之后为:CRR054647_r2.fastq.gz Root_I1.fastq.gz Root_R1.fastq.gz
为了准备cellranger的input,修改文件名为:
Root_S1_L001_I1_001.fastq.gz
Root_S1_L001_R1_001.fastq.gz
Root_S1_L001_R2_001.fastq.gz
与普通fastq文件相比,单细胞RNASeq fastq文件包含条形码和唯一分子标识符(UMI)的额外信息。从文件大小也能看出来,只有read2是转录本序列。
======================================QC============================
整体测序质量还是可以的。下面进行cell的鉴定。我先试了2种不同的工具。
=====================cellranger===================================
cellranger count --id run_count_1kpbmcs --fastqs root/ --sample Root_S1 --transcriptome refdata/
可以看出,cellranger给出的cell预估数目是14539,Median Genes per Cell是1036,Median UMI Counts per Cell是1972,总共检测到的基因数目是24060。
===========================利用umi_tools进行鉴定========================
umi_tools whitelist -I ../root/Root_S1_L001_R1_001.fastq.gz -p CCCCCCCCCCCCCCCCNNNNNNNNNN --plot-prefix=QC --log2stderr > whitelist.txt
与cellranger相比,曲线是基本一致的,但是cutoff的点相差真的很大,所以我现在比较迷惑到底什么是true cell的筛选标准。这2中方法的cutoff的阈值到底哪个更合理。