scATAC联合scRNA之signac分析(一):cellranger-atac上游scATAC数据处理/公共数据库挖掘演示

这是一个新的系列,关于signac分析scATAC数据,我们从上游开始。我们之前在介绍ArchR的时候,介绍过cellranger-atac分析scATAC上游数据(ArchR包单细胞ATAC分析(1): 上游分析)。这里我们从公共数据库挖掘的角度,从上游分析开始,完成这个系列,关于ATAC的基本知识,请参考10X官网介绍或者其他!

1、ATAC简介:

ATAC染色质可及性。染色质可及性是一个生物学概念,学过生物学我们都知道,细胞里面的遗传物质是以染色体的紧密形式呈现的,染色体有DNA、组蛋白等等组成,是一个整体的结构,并不是我们想象中的那样,一条长长的DNA双螺旋。那么在基因转录的时候,或者说需要那些基因转录的时候,这时候这部分区域的染色质就得打开,调控因子结合打开的DNA,从而进行转录过程。打开的部分称为开放的染色质,开放的染色质允许转录调控因子结合的这个特征称之为染色质可及性。

2、ATAC-seq简单原理介绍

既然存在染色质可及性,即转录过程中染色体会开放区域,那么就可以利用这个特性。在ATAC-seq中,收集好组织或者细胞的细胞核之后,使用Tn5 DNA转座酶特异性的结合到染色体开放区域,而那些紧密连接的区域不会受到影响,这样开放区域的染色质DNA会被转座酶随机插入并打断,而转座酶插入时携带测序接头,最后将打断后的DNA收集,建库测序,即ATAC-seq。

3、公共数据库数据下载

实际上,我很不建议自己跑上游,因为很耗费时间,对设备也有要求,请用服务器(共享的价格、独享的体验---有root权限、可解决问题 (注册领取200优惠券)!)。如果你的数据是公司测的,那么不用但系上游处理的问题,直接用他处理好的进行下游分析即可。但是很多时候,存在我们需要挖掘的情况,如果别人提供了完整的数据可供下游分析还好,倒霉的就是他们不提供,而你又很需要,那就只能自己跑上游了。我们这里演示也是为了让大家了解一下基本流程。

我选取的数据是这篇文章的:https://doi.org/10.1038/s41588-023-01445-4,这篇《nature genetics》文章很友好的公开了自己的数据,我选取了每个组一个样本,也就是总共三个样本用于演示,处理太多对我来说没什么意义。因为我的服务器空间并不大,而scATAC上游有很耗费磁盘空间,所以三个样本分开跑的。和其他挖掘SRR数据库一样,首先利用prefetch下载sra文件,然后利用fastq-dump将sra文件分为FASTQ文件,用cat将分割的文件合并,并按照cellranger要求进行命名:请注意,即使我提供了数据,也不要当作生物学样本去使用,仅仅是演示数据,意义不大!


 1525  cat SRR_HC.txt 
 1526  cat SRR_HC.txt |  while  read id; do ( prefetch $id & ); done
 1528  cd SRR21377796/
 1529  fastq-dump -O ./ --gzip --split-files SRR21377796.sra 
 1530  cd ..
 1531  cd SRR21377797/
 1532  fastq-dump -O ./ --gzip --split-files SRR21377797.sra 
 1534  cd new_ATAC/SRR21377812/
 1536  fastq-dump -O ./ --gzip --split-files SRR21377812.sra 
 1537  cd ..
 1538  cd SRR21377813
 1539  ls
 1540  fastq-dump -O ./ --gzip --split-files SRR21377813.sra 
 1541  cd ..
 1543  cat ./SRR21377796/SRR21377796_1.fastq.gz ./SRR21377797/SRR21377797_1.fastq.gz ./SRR21377812/SRR21377812_1.fastq.gz ./SRR21377813/SRR21377813_1.fastq.gz >  AA_S1_L001_I1_001.fastq.gz
 1544  cat ./SRR21377796/SRR21377796_2.fastq.gz ./SRR21377797/SRR21377797_2.fastq.gz ./SRR21377812/SRR21377812_2.fastq.gz ./SRR21377813/SRR21377813_2.fastq.gz >  AA_S1_L001_R1_001.fastq.gz
 1548  cat ./SRR21377796/SRR21377796_3.fastq.gz ./SRR21377797/SRR21377797_3.fastq.gz ./SRR21377812/SRR21377812_3.fastq.gz ./SRR21377813/SRR21377813_3.fastq.gz >  AA_S1_L001_R2_001.fastq.gz
 1549  cat ./SRR21377796/SRR21377796_4.fastq.gz ./SRR21377797/SRR21377797_4.fastq.gz ./SRR21377812/SRR21377812_4.fastq.gz ./SRR21377813/SRR21377813_4.fastq.gz >  AA_S1_L001_R3_001.fastq.gz
 1575  cat SRR_HC.txt | while  read id; do ( prefetch $id & ); done 
 1576  cd new_ATAC/
 1578  cd SRR213777880
 1579  cd SRR21377780/
 1580  cd new_ATAC/SRR21377780
 1581  ls
 1582  nohup fastq-dump -O ./ --gzip --split-files SRR21377780.sra &
 1583  cd ..
 1584  cd SRR21377781
 1585  ls
 1586  nohup fastq-dump -O ./ --gzip --split-files SRR21377781.sra &
 1587  cd ..
 1588  cd SRR21377782
 1589  ls
 1590  nohup fastq-dump -O ./ --gzip --split-files SRR21377782.sra &
 1591  cd ..
 1592  cd SRR21377783/
 1593  nohup fastq-dump -O ./ --gzip --split-files SRR21377783.sra &
 1594  cd ..
 1595  cat ./SRR21377783/SRR21377783_1.fastq.gz ./SRR21377782/SRR21377782_1.fastq.gz ./SRR21377781/SRR21377781_1.fastq.gz ./SRR21377780/SRR21377780_1.fastq.gz >  HC_S1_L001_I1_001.fastq.gz
 1596  cat ./SRR21377783/SRR21377783_2.fastq.gz ./SRR21377782/SRR21377782_2.fastq.gz ./SRR21377781/SRR21377781_2.fastq.gz ./SRR21377780/SRR21377780_2.fastq.gz >  HC_S1_L001_R1_001.fastq.gz
 1597  cat ./SRR21377783/SRR21377783_3.fastq.gz ./SRR21377782/SRR21377782_3.fastq.gz ./SRR21377781/SRR21377781_3.fastq.gz ./SRR21377780/SRR21377780_3.fastq.gz >  HC_S1_L001_R2_001.fastq.gz
 1598  cat ./SRR21377783/SRR21377783_4.fastq.gz ./SRR21377782/SRR21377782_4.fastq.gz ./SRR21377781/SRR21377781_4.fastq.gz ./SRR21377780/SRR21377780_4.fastq.gz >  HC_S1_L001_R3_001.fastq.gz
 1602  cd new_ATAC/
 1603  tail -f nohup.out 
 1604  cat SRR_SD.txt |  while  read id; do ( prefetch $id & ); done
 1605  conda activate cellranger
 1606  cd SRR21377814
 1607  nohup fastq-dump -O ./ --gzip --split-files SRR21377814.sra  &
 1608  cd ..
 1609  cd SRR21377815/
 1610  nohup fastq-dump -O ./ --gzip --split-files SRR21377815.sra  &
 1611  cd ..
 1612  cd SRR21377816/
 1613  nohup fastq-dump -O ./ --gzip --split-files SRR21377816.sra  &
 1614  cd ..
 1615  cd SRR21377817/
 1616  nohup fastq-dump -O ./ --gzip --split-files SRR21377817.sra &
 1617  cd ..
 1618  ls
 1619  cat ./SRR21377814/SRR21377814_1.fastq.gz ./SRR21377815/SRR21377815_1.fastq.gz ./SRR21377816/SRR21377816_1.fastq.gz ./SRR21377817/SRR21377817_1.fastq.gz >  SD_S1_L001_I1_001.fastq.gz
 1620  cat ./SRR21377814/SRR21377814_2.fastq.gz ./SRR21377815/SRR21377815_2.fastq.gz ./SRR21377816/SRR21377816_2.fastq.gz ./SRR21377817/SRR21377817_2.fastq.gz >  SD_S1_L001_R1_001.fastq.gz
 1621  cat ./SRR21377814/SRR21377814_3.fastq.gz ./SRR21377815/SRR21377815_3.fastq.gz ./SRR21377816/SRR21377816_3.fastq.gz ./SRR21377817/SRR21377817_3.fastq.gz >  SD_S1_L001_R2_001.fastq.gz
 1622  cat ./SRR21377814/SRR21377814_4.fastq.gz ./SRR21377815/SRR21377815_4.fastq.

4、安装cellranger-atac,下载参考基因组:
参考10X官网,按照需求下载相应的版本;参考基因组也是提供了人和小鼠的,一定要对应哦:
https://support.10xgenomics.com/single-cell-atac/software/downloads/latest

wget -O cellranger-atac-2.1.0.tar.gz \
"https://cf.10xgenomics.com/releases/cell-atac/cellranger-atac-2.1.0.tar.gz?Expires=1676294517&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hdGFjL2NlbGxyYW5nZXItYXRhYy0yLjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NzYyOTQ1MTd9fX1dfQ__&Signature=CX4JhovsMLEXYDYPY2GEVv0SaLg3X-KOUBQ-S52aciWgpd996iHomsnN7gulQaws59GywBLaCjwf7mrxGit8Fs6kKJ1IkTbdxVmDKAg9DMFfJ5BwRIck9NX8eeLyBEpDAS6t~WGbfkCViforbugd1tNbBgJRcRN8pIrCnai9GmqZQzzKTbkllArlj3AxKDkPgNin9g6H5cg8D8PcZfFfeu7jdm5rKFdBNtVn1Et45QDQmNoJxuXRngyC5cBKbICUlOmhqE6tOMjuJEBqijVqaLnTSrRRzvyu-rEEuNIdGuIYPwWZQ5RoDh4g0X-ZO60h4RZu3ZoRlEDlsQOlSrJ68w__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"  
#安装软件
#首先解压 
tar -xzvf cellranger-atac-2.1.0.tar.gz 
#添加到环境变量  
echo  'export PATH=/home/biosoft/cellranger-atac-2.1.0:$PATH' >>~/.bashrc source ~/.bashrc 
#查看下帮助文档,是不是安装好了 
#ATAC参考基因组下载 
wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz 
tar -zxvf refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz

5、run cellranger-atac count
我是一个一个样本跑的。建议跑的时候nohup挂后台,然后就可以干别的事情了,我这里的样本12h也跑完了,因为时间比较久,万一服务器被你误操作终止了那不得心疼死。不放心中间可检查日志文件,看看是否有报错。


nohup cellranger-atac count --id=SRR_AA --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &
nohup cellranger-atac count --id=SRR_HC --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &
nohup cellranger-atac count --id=SRR_SD --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./  &

6、output
最终得到的文件在outs文件夹,有这些,就可以进行下游分析了:web_summary文件可以查看样本数据质量和基本情况!



©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容