单细胞转录组之从fastq到counts

1 原始数据下载及转换

从GEO下载原始数据需要使用官方工具SRA-tools,安装SRA-tools

conda install -y sra-tools

1.1 原始数据下载

进入NCBI SRA数据库,输入GSE编号,选择要下载的数据,下载Accession List,至rawdata文件夹.

在rawdata文件夹中,使用SRA-tools中prefetch来下载文件。

cat SRR_Acc_List.txt |xargs -I [] echo 'nohup prefetch [] &'>prefetch.sh
bash prefetch.sh

运行上述命令后,会在后台下载数据。
或者

prefetch --option-file SRR_Acc_List.txt 

下载完成后会在目录下得到包含SRA的文件夹


1.2 SRA批量转换为fastq

在rawdata文件夹下,运行批量转换脚本

##-e:线程数(dflt=6) --include-technical:包含technical reads -b:文件缓存区(dflt=1MB) -c:动态缓存(dflt=10MB) -m:排序的内存限制(dflt=100MB)

ls SRR*/*sra |while read id;do (fasterq-dump --split-files -e 10 --include-technical -b 100MB -c 200MB -m 2000MB $id);done 

运行完毕后,每个sra文件会解压出3个fq文件,如下所示

$ ls -lh *gz |cut -d" " -f 5- 

985M  21:45 SRR13924917_1.fastq.gz
2.2G  21:45 SRR13924917_2.fastq.gz
6.7G  21:45 SRR13924917_3.fastq.gz

987M  21:59 SRR13924918_1.fastq.gz
2.2G  21:59 SRR13924918_2.fastq.gz
6.7G  21:59 SRR13924918_3.fastq.gz

这里可能出现三种情况

  • 从sra拆分的fastq文件只有一个:单端测序
  • 从sra拆分的fastq文件有两个:双端测序
  • 从sra拆分的fastq文件有三个:双端测序read+index

详见以下说明


从这3个fq文件的大小就可以看得出来它们的格式,分别是I1,R1,和R2。

2 Cell Ranger流程

Cell Ranger是10X Genomics为单细胞分析专门打造的分析软件,直接对10X的下机数据进行基因组比对、定量、生成单细胞矩阵、聚类以及其他的分析等。

为了在下游分析中让Cell Ranger指定识别我们的fastq文件进行下游分析,使用官网推荐的命名格式进行命名


所以要对之前得到的fastq文件,批量改名。

##重命名脚本1
ls *_1.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_I1_001.fastq.gz);done
ls *_2.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R1_001.fastq.gz);done
ls *_3.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R2_001.fastq.gz);done

##重命名脚本2
cat SRR_Acc_List.txt | while read id ;do (mv ${id}_1*.gz ${id}_S1_L001_I1_001.fastq.gz;mv ${id}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${id}_3*.gz ${i}_S1_L001_R3_001.fastq.gz);done

2.1 Cell Ranger的下载与安装

进入CellRanger官网,点击下载,如果是第一次进入下载界面,需要填写一些基本信息,填写完后点击Continue to Download即可。

##LINUX版本下载
curl -o cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1652062386&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTIwNjIzODZ9fX1dfQ__&Signature=A9adfYE-gTZugUA8HDIt7K9BaLs72lc8dU3X-Oqj0NMMA-zG5POwSSi9SsBME1pOX8iGyEI1gknodSfFWcf2oBEyF6gZLPxFoFQ71ATS1Z7pQaTWzAVzbnDXj4swuMqX-OM~zngTrKxqDQ9UPcuvTriMCmc2LYVgMjuNR5kxGWKfI1xCXyMpimKNlpttw-~w-xqBGwi2PQ6exgF1oUIAVEeLnl~pd6hm6Ia8IMJEJmpuLDlBVKHzmruimXSoZxIaSphdnSglYqGBltcYHdEUVLZ1LtgwQKvEvlaEo8wtA7IVX9WWB~N2zqiLW0BvHucQUiQAtjYQwfCdclbkhor2Xg__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
  • 安装包下载完成后使用tar命令进行解压。
tar -xzvf cellranger-6.1.2.tar.gz
  • 把Cell Ranger添加到系统环境。
vim ~/.bashrc
##将下方语句添加到.bashrc中,注意修改路径
export PATH=~/t010328/download/cellranger-6.1.2:$PATH
  • 更新一下.bashrc文件。
source ~/.bashrc
  • 测试是否正确安装
cellranger testrun --id=tiny
##显示Pipestance completed successfully!则成功

2.2 参考基因组下载

CellRanger官网提供了人和小鼠的参考基因组。

##Human reference (GRCh38),Download – 11 GB – md5sum: dfd654de39bff23917471e7fcc7a00cd
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz

##Mouse reference dataset,Download – 9.7 GB – md5sum: 886eeddde8731ffb58552d0bb81f533d
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

2.3 CellRanger定量

编写一个cellranger运行脚本,命名为run-cellranger.sh。内容如下:

##db为参考基因组目录,fq_dir为原始fastq文件目录,--localcores为最大使用线程数,--nosecondary为不进行聚类分群分析,--expect-cells为指定最大细胞数
db=~/t010328/download/cellranger/refdata-gex-GRCh38-2020-A;  
ls $db 
fq_dir=~/t010328/download/10X/raw  
echo '
cellranger count --id=$1 \  
--localcores=20 \  
--transcriptome=$db \  
--fastqs=$fq_dir \  
--sample=$1 \  
--nosecondary \  
--expect-cells=5000 ' >run-cellranger.sh

批量运行run-cellranger.sh进行比对定量。

nohup cat SRR_Acc_List.txt |while read id;do ( bash run-cellranger.sh $id  );done &

2.4 定量结果

成功运行之后会生成sample目录(脚本中id参数),最终结果都保存在sample/outs中。


analysis:cellranger聚类的结果

filtered_feature_bc_matrix:过滤后的单细胞表达矩阵(后续可以对接到seurat包)

raw_feature_bc_matrix:过滤前的单细胞表达数据

possorted_genome_bam.bam:单细胞比对的bam文件,其中包含了每个reads的信息

web_summary.html:报告网页(单细胞定量后的报告,包括检测到的细胞数、基因数、UMI、分群等等)

参考来源
https://www.jianshu.com/p/0b32fe7a2859
https://mp.weixin.qq.com/s/xvXtgzWAFpw-b00HBUVMCg

THE END

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容