celescope使用说明

软件简介

Celescope可从二代测序下机的原始fastq数据开始处理,经过细胞标签的提取、质控与校正,测序数据质控,参考基因组比对,基因定量,UMI纠错与计数后确定细胞数,最终得到数据的质控报告和细胞的表达矩阵,用于后续分析,具有灵活、准确、全面的特点,是非常有力的单细胞转录组测序数据处理软件。

环境配置

conda

linux

minimum 32GB RAM(to run STAR aligner)

下载安装celescope

编写运行如下代码进行下载安装:

git clone https://github.com/zhouyiqi91/CeleScope.git

cd CeleScope

source setup.sh

如果没有报错,就说明celescope安装成功。

下载参考基因组生成index文件

不管用什么软件,做什么分析,参考基因组都是必不可少的。

从ensembl官网下载人类基因组的参考序列文件(.fa)和基因组注释文件(.gtf):


wgetftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

wgetftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz


解压参考基因组文件到指定文件夹:


mkdir -preferences/Homo_sapiens/Ensembl/GRCh38

gzip -c -d Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz> references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.fa

gzip -c -d Homo_sapiens.GRCh38.99.gtf.gz >

references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.gtf

Note:运行celescope要激活conda环境。

调用STAR生成参考基因组的index文件。

conda activate celescope

gtfToGenePred -genePredExt -geneNameAsName2references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.gtf /dev/stdout |\

   awk '{print$12"\t"$1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$6"\t"$7"\t"$8"\t"$9"\t"$10}'> references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.refFlat

STAR --runMode genomeGenerate\

--runThreadN 6\     

--genomeDir references/Homo_sapiens/Ensembl/GRCh38 \    

--genomeFastaFiles references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.fa \    

--sjdbGTFfile references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.gtf \

--sjdbOverhang 100 

STAR结果中会生成reference文件夹,里面包含人类基因组的index信息,如染色体、外显子等。

$ ls celescope_test/references/Homo_sapiens/Ensembl/GRCh38/

chrLength.txt      exonGeTrInfo.tab  genomeParameters.txt            SA                        sjdbList.out.tab

chrNameLength.txt  exonInfo.tab      Homo_sapiens.GRCh38.99.gtf      SAindex                  transcriptInfo.tab

chrName.txt        geneInfo.tab      Homo_sapiens.GRCh38.99.refFlat  sjdbInfo.txt

chrStart.txt      Genome            Homo_sapiens.GRCh38.fa          sjdbList.fromGTF.out.tab

小鼠及其他物种的参考基因组下载和index文件生成方法同理。

至此celescope分析的前期准备工作已经差不多完成了,下面开始正式分析。

Celescope可以用于Single cell RNA-seq,Single cell VDJ和Single cell Multiplexing。

Single cell RNA-seq(单细胞转录组分析)

激活conda环境:

conda activate celescope

编写如下脚本进行单样本分析:

celescope rna run\  

 --fq1/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_1.fq.gz\

 --fq2/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_2.fq.gz\

 --genomeDir /SGR/references/Homo_sapiens/Ensembl/GRCh38\

 --sample BEPM\

 --thread 4\

--chemistry auto

NOTE:运行之前要先下载好fastqc软件

输入:

--fq1 双端测序FASTQ read 1的路径

--fq2 双端测序FASTQ read 2的路径

--genomeDIR 参考基因组的路径

--sample 样本名

--thread 分析使用的线程数。在RNA-seq分析中最好不要超过8个,否则容易报错

Single cell RNA-seq还支持多样本运行模式,接口为multi_{assay}

编写并运行如下脚本:

multi_rna\

 --mapfile /SGRNJ02/RandD4/test/20200713.mapfile\

 --chemistry scopeV2.1.1\

 --genomeDir/SGRNJ/Public/Database/genome/homo_mus\

 --thread 4\

 --modshell


输入:

--mapfile:包含三列, 每列之间用tab分割;每一行是一个样本。

第一列:fastq前缀

第二列:fastq所在文件夹

第三列:{sample}(即生成文件的前缀)

第四列:可选,期望细胞数(scRNA-Seq)或者match_dir(scVDJ) 注意:当一个样本有多个fastq,且这些fastq不在同一个文件夹下时,每个fastq占一行,sample名称相同即可。

mapfile示例:

$ cat /SGRNJ02/RandD4/test/20200713.mapfile

LC20062911      /SGRNJ/DATA_PROJ/2003/20200710  S062907-3

$ ll/SGRNJ/DATA_PROJ/2003/20200710

total 26181688

-rw-r--r--. 1download ssh.bioinfo 3056870860 Jul 10 13:52 LC20062911_2_L1_1.fq.gz

-rw-r--r--. 1download ssh.bioinfo 3105319350 Jul 10 14:04 LC20062911_2_L1_2.fq.gz

运行后会在当前目录下生成一个shell文件夹,里面包含一个与sample名相同的shell脚本

$ ls -l

-rw-r-----. 1zhouxin ssh.randd 1504 Dec  9 14:20S062907-3.sh

在根目录下运行该脚本即可开始RNA-seq分析:

$ shshell/S062907-3.sh

输出:

Single cell RNA-seq输出文件包括每一步的结果文件和HTML报告。HTML报告可以查看每一步分析结果的统计,点击标题旁的?可以查看每个分析指标的具体含义。基因表达矩阵在05.count目录下。

$ ll S062907-3

total 5028

drwxr-xr-x. 2zhouxin ssh.randd      30 Dec  9 14:53 00.sample

drwxr-xr-x. 2zhouxin ssh.randd     128 Dec  9 15:31 01.barcode

drwxr-xr-x. 2zhouxin ssh.randd      89 Dec  9 15:54 02.cutadapt

drwxr-xr-x. 3zhouxin ssh.randd    4096 Dec  9 17:50 03.STAR

drwxr-xr-x. 2zhouxin ssh.randd     186 Dec  9 17:54 04.featureCounts

drwxr-xr-x. 3zhouxin ssh.randd     243 Dec  9 18:12 05.count

drwxr-xr-x. 2zhouxin ssh.randd      99 Dec  9 18:17 06.analysis

-rw-r--r--. 1zhouxin ssh.randd 5141357 Dec  9 18:17S062907-3_report.html

$ ll 05.count/

total 367216

-rw-r--r--. 1 zhouxin ssh.randd     20154 Dec 9 18:02 barcode_filter_magnitude.pdf

-rw-r--r--. 1 zhouxin ssh.randd 355985586Dec  9 17:57 S062907-3_count_detail.txt

-rw-r--r--. 1 zhouxin ssh.randd  17730119 Dec 9 18:02 S062907-3_counts.txt

-rw-r--r--. 1 zhouxin ssh.randd       229 Dec 9 18:12 S062907-3_downsample.txt

drwxr-xr-x. 2 zhouxin ssh.randd        77 Dec 9 18:03 S062907-3_matrix_10X

-rw-r--r--. 1 zhouxin ssh.randd   2279564 Dec 9 18:05 S062907-3_matrix.tsv.gz

-rw-r--r--. 1 zhouxin ssh.randd       176 Dec 9 18:12 stat.txt

NOTE

S062907-3_matrix.tsv.gz:tab分隔的表达矩阵,行名是HGNC gene symbol, 列名是cell barcode。

S062907-3_matrix_10X:10X格式的表达矩阵,可以用Seurat的Read10X函数读入。

Single cell VDJ(单细胞免疫组库分析)

激活conda环境:

conda activatecelescope

编写并运行如下脚本:

celescope vdjrun  

--fq1/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_1.fq.gz\

 --fq2/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_2.fq.gz\

 --sample S062907-3\

 --thread 8\

 --type TCR\

 --chemistry auto

输入:

--fq1 FASTQ read1文件

--fq2 FASTQ read2文件

-- sample 样本名

-- thread 线程数

--type T细胞或B细胞受体

--match_dir 与RNA-seq目录匹配

输出:

$ ll S062907-3/

total 2888

drwxr-xr-x. 2zhouxin ssh.randd      30 Dec  9 15:08 00.sample

drwxr-xr-x. 2zhouxin ssh.randd     128 Dec  9 16:46 01.barcode

drwxr-xr-x. 2zhouxin ssh.randd      89 Dec  9 17:05 02.cutadapt

drwxr-xr-x. 2zhouxin ssh.randd     235 Dec  9 18:41 03.mapping_vdj

drwxr-xr-x. 2zhouxin ssh.randd     194 Dec  9 18:41 04.count_vdj

-rw-r--r--. 1zhouxin ssh.randd 2956241 Dec  9 18:41S062907-3_report.html

04.count_vdj目录包含如下文件:

S062907-3_cell_confident.tsv:VDJ cell barcode的克隆型,每一条链(TRA和TRB)分别占一行。

S062907-3_cell_confident_count.tsv:VDJ cell barcode的克隆型,每个细胞占一行。

S062907-3_clonetypes.tsv:VDJ cell barcode每种克隆型的计数和百分比。

S062907-3_match_clonetypes.tsv:VDJ cell barcode与sc-RNA-Seq cell

barcode交集的每种克隆型的计数和百分比。当提供了match_dir参数时,才会生产该文件。

Single cell Multiplexing(拆分)

激活conda环境:

conda activatecelescope

编写并运行如下代码:

celescope smkrun\  

 --fq1 {smk fq1.gz}\

 --fq2 {smk fq2.gz}\

 --sample {sample name}\

 --SMK_pattern L25C45\

 --SMK_barcode {SMK barcode fasta}\

 --SMK_linker {SMK linker fasta}\

 --match_dir {match_dir}\

 --dim 2\

 --combine_cluster {combine_cluster.tsv}

输入:

--SMK_pattern 必需参数。L25C45 指25 bp linker + 45 bpcell barcode

C: cell barcode

U: UMI

T: polyT

L: linker

--SMK_barcode 必需参数,标签的fa文件

--SMK_linker 必需参数,linker的fa文件

--match_dir 必需参数,运行完celescope后与scRNA-seq目录进行匹配

--dim 必需参数,规定纬度

--combine_cluster 可选参数,整合cluster文件

第一列:原始cluster数

第二列:整合后的cluster数

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容