celescope使用说明

软件简介

Celescope可从二代测序下机的原始fastq数据开始处理，经过细胞标签的提取、质控与校正，测序数据质控，参考基因组比对，基因定量，UMI纠错与计数后确定细胞数，最终得到数据的质控报告和细胞的表达矩阵，用于后续分析，具有灵活、准确、全面的特点，是非常有力的单细胞转录组测序数据处理软件。

环境配置

conda

linux

minimum 32GB RAM(to run STAR aligner)

下载安装celescope

编写运行如下代码进行下载安装：

git clone https://github.com/zhouyiqi91/CeleScope.git

cd CeleScope

source setup.sh

如果没有报错，就说明celescope安装成功。

下载参考基因组并生成index文件

不管用什么软件，做什么分析，参考基因组都是必不可少的。

从ensembl官网下载人类基因组的参考序列文件（.fa）和基因组注释文件（.gtf）：

wgetftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

wgetftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz

解压参考基因组文件到指定文件夹：

mkdir -preferences/Homo_sapiens/Ensembl/GRCh38

gzip -c -d Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz> references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.fa

gzip -c -d Homo_sapiens.GRCh38.99.gtf.gz >

references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.gtf

Note：运行celescope要激活conda环境。

调用STAR生成参考基因组的index文件。

conda activate celescope

gtfToGenePred -genePredExt -geneNameAsName2references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.gtf /dev/stdout |\

   awk '{print$12"\t"$1"\t"$2"\t"$3"\t"$4"\t"$5"\t"$6"\t"$7"\t"$8"\t"$9"\t"$10}'> references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.refFlat

STAR --runMode genomeGenerate\

--runThreadN 6\

--genomeDir references/Homo_sapiens/Ensembl/GRCh38 \

--genomeFastaFiles references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.fa \

--sjdbGTFfile references/Homo_sapiens/Ensembl/GRCh38/Homo_sapiens.GRCh38.99.gtf \

--sjdbOverhang 100

STAR结果中会生成reference文件夹，里面包含人类基因组的index信息，如染色体、外显子等。

$ ls celescope_test/references/Homo_sapiens/Ensembl/GRCh38/

chrLength.txt exonGeTrInfo.tab genomeParameters.txt SA sjdbList.out.tab

chrNameLength.txt exonInfo.tab Homo_sapiens.GRCh38.99.gtf SAindex transcriptInfo.tab

chrName.txt geneInfo.tab Homo_sapiens.GRCh38.99.refFlat sjdbInfo.txt

chrStart.txt Genome Homo_sapiens.GRCh38.fa sjdbList.fromGTF.out.tab

小鼠及其他物种的参考基因组下载和index文件生成方法同理。

至此celescope分析的前期准备工作已经差不多完成了，下面开始正式分析。

Celescope可以用于Single cell RNA-seq，Single cell VDJ和Single cell Multiplexing。

Single cell RNA-seq（单细胞转录组分析）

激活conda环境：

conda activate celescope

编写如下脚本进行单样本分析：

celescope rna run\

--fq1/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_1.fq.gz\

--fq2/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_2.fq.gz\

--genomeDir /SGR/references/Homo_sapiens/Ensembl/GRCh38\

--sample BEPM\

--thread 4\

--chemistry auto

NOTE：运行之前要先下载好fastqc软件

输入：

--fq1 双端测序FASTQ read 1的路径

--fq2 双端测序FASTQ read 2的路径

--genomeDIR 参考基因组的路径

--sample 样本名

--thread 分析使用的线程数。在RNA-seq分析中最好不要超过8个，否则容易报错

Single cell RNA-seq还支持多样本运行模式，接口为multi_{assay}。

编写并运行如下脚本：

multi_rna\

--mapfile /SGRNJ02/RandD4/test/20200713.mapfile\

--chemistry scopeV2.1.1\

--genomeDir/SGRNJ/Public/Database/genome/homo_mus\

--thread 4\

--modshell

输入：

--mapfile：包含三列, 每列之间用tab分割；每一行是一个样本。

第一列：fastq前缀

第二列：fastq所在文件夹

第三列：{sample}（即生成文件的前缀）

第四列：可选，期望细胞数（scRNA-Seq）或者match_dir(scVDJ) 注意：当一个样本有多个fastq，且这些fastq不在同一个文件夹下时，每个fastq占一行，sample名称相同即可。

mapfile示例：

$ cat /SGRNJ02/RandD4/test/20200713.mapfile

LC20062911 /SGRNJ/DATA_PROJ/2003/20200710 S062907-3

$ ll/SGRNJ/DATA_PROJ/2003/20200710

total 26181688

-rw-r--r--. 1download ssh.bioinfo 3056870860 Jul 10 13:52 LC20062911_2_L1_1.fq.gz

-rw-r--r--. 1download ssh.bioinfo 3105319350 Jul 10 14:04 LC20062911_2_L1_2.fq.gz

运行后会在当前目录下生成一个shell文件夹，里面包含一个与sample名相同的shell脚本

$ ls -l

-rw-r-----. 1zhouxin ssh.randd 1504 Dec 9 14:20S062907-3.sh

在根目录下运行该脚本即可开始RNA-seq分析：

$ shshell/S062907-3.sh

输出：

Single cell RNA-seq输出文件包括每一步的结果文件和HTML报告。HTML报告可以查看每一步分析结果的统计，点击标题旁的？可以查看每个分析指标的具体含义。基因表达矩阵在05.count目录下。

$ ll S062907-3

total 5028

drwxr-xr-x. 2zhouxin ssh.randd      30 Dec 9 14:53 00.sample

drwxr-xr-x. 2zhouxin ssh.randd     128 Dec 9 15:31 01.barcode

drwxr-xr-x. 2zhouxin ssh.randd      89 Dec 9 15:54 02.cutadapt

drwxr-xr-x. 3zhouxin ssh.randd    4096 Dec 9 17:50 03.STAR

drwxr-xr-x. 2zhouxin ssh.randd     186 Dec 9 17:54 04.featureCounts

drwxr-xr-x. 3zhouxin ssh.randd     243 Dec 9 18:12 05.count

drwxr-xr-x. 2zhouxin ssh.randd      99 Dec 9 18:17 06.analysis

-rw-r--r--. 1zhouxin ssh.randd 5141357 Dec 9 18:17S062907-3_report.html

$ ll 05.count/

total 367216

-rw-r--r--. 1 zhouxin ssh.randd     20154 Dec 9 18:02 barcode_filter_magnitude.pdf

-rw-r--r--. 1 zhouxin ssh.randd 355985586Dec 9 17:57 S062907-3_count_detail.txt

-rw-r--r--. 1 zhouxin ssh.randd 17730119 Dec 9 18:02 S062907-3_counts.txt

-rw-r--r--. 1 zhouxin ssh.randd       229 Dec 9 18:12 S062907-3_downsample.txt

drwxr-xr-x. 2 zhouxin ssh.randd        77 Dec 9 18:03 S062907-3_matrix_10X

-rw-r--r--. 1 zhouxin ssh.randd 2279564 Dec 9 18:05 S062907-3_matrix.tsv.gz

-rw-r--r--. 1 zhouxin ssh.randd       176 Dec 9 18:12 stat.txt

NOTE：

S062907-3_matrix.tsv.gz：tab分隔的表达矩阵，行名是HGNC gene symbol, 列名是cell barcode。

S062907-3_matrix_10X：10X格式的表达矩阵，可以用Seurat的Read10X函数读入。

Single cell VDJ（单细胞免疫组库分析）

激活conda环境：

conda activatecelescope

编写并运行如下脚本：

celescope vdjrun

--fq1/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_1.fq.gz\

--fq2/SGRNJ/DATA_PROJ/2003/20200710/LC20062911_2_L1_2.fq.gz\

--sample S062907-3\

--thread 8\

--type TCR\

--chemistry auto

输入：

--fq1 FASTQ read1文件

--fq2 FASTQ read2文件

-- sample 样本名

-- thread 线程数

--type T细胞或B细胞受体

--match_dir 与RNA-seq目录匹配

输出：

$ ll S062907-3/

total 2888

drwxr-xr-x. 2zhouxin ssh.randd      30 Dec 9 15:08 00.sample

drwxr-xr-x. 2zhouxin ssh.randd     128 Dec 9 16:46 01.barcode

drwxr-xr-x. 2zhouxin ssh.randd      89 Dec 9 17:05 02.cutadapt

drwxr-xr-x. 2zhouxin ssh.randd     235 Dec 9 18:41 03.mapping_vdj

drwxr-xr-x. 2zhouxin ssh.randd     194 Dec 9 18:41 04.count_vdj

-rw-r--r--. 1zhouxin ssh.randd 2956241 Dec 9 18:41S062907-3_report.html

04.count_vdj目录包含如下文件：

S062907-3_cell_confident.tsv：VDJ cell barcode的克隆型，每一条链（TRA和TRB）分别占一行。

S062907-3_cell_confident_count.tsv：VDJ cell barcode的克隆型，每个细胞占一行。

S062907-3_clonetypes.tsv：VDJ cell barcode每种克隆型的计数和百分比。

S062907-3_match_clonetypes.tsv：VDJ cell barcode与sc-RNA-Seq cell

barcode交集的每种克隆型的计数和百分比。当提供了match_dir参数时，才会生产该文件。

Single cell Multiplexing（拆分）

激活conda环境：

conda activatecelescope

编写并运行如下代码：

celescope smkrun\

--fq1 {smk fq1.gz}\

--fq2 {smk fq2.gz}\

--sample {sample name}\

--SMK_pattern L25C45\

--SMK_barcode {SMK barcode fasta}\

--SMK_linker {SMK linker fasta}\

--match_dir {match_dir}\

--dim 2\

--combine_cluster {combine_cluster.tsv}

输入：

--SMK_pattern 必需参数。L25C45 指25 bp linker + 45 bpcell barcode

C: cell barcode

U: UMI

T: polyT

L: linker

--SMK_barcode 必需参数，标签的fa文件

--SMK_linker 必需参数，linker的fa文件

--match_dir 必需参数，运行完celescope后与scRNA-seq目录进行匹配

--dim 必需参数，规定纬度

--combine_cluster 可选参数，整合cluster文件

第一列：原始cluster数

第二列：整合后的cluster数

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,295评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,928评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,682评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,209评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,237评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,965评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,586评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,487评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,016评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,136评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,271评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,948评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,619评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,139评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,252评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,598评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,267评论 2赞 358

celescope使用说明

推荐阅读更多精彩内容