这是一个新的系列,关于signac分析scATAC数据,我们从上游开始。我们之前在介绍ArchR的时候,介绍过cellranger-atac分析scATAC上游数据(ArchR包单细胞ATAC分析(1): 上游分析)。这里我们从公共数据库挖掘的角度,从上游分析开始,完成这个系列,关于ATAC的基本知识,请参考10X官网介绍或者其他!
1、ATAC简介:
ATAC染色质可及性。染色质可及性是一个生物学概念,学过生物学我们都知道,细胞里面的遗传物质是以染色体的紧密形式呈现的,染色体有DNA、组蛋白等等组成,是一个整体的结构,并不是我们想象中的那样,一条长长的DNA双螺旋。那么在基因转录的时候,或者说需要那些基因转录的时候,这时候这部分区域的染色质就得打开,调控因子结合打开的DNA,从而进行转录过程。打开的部分称为开放的染色质,开放的染色质允许转录调控因子结合的这个特征称之为染色质可及性。
2、ATAC-seq简单原理介绍:
既然存在染色质可及性,即转录过程中染色体会开放区域,那么就可以利用这个特性。在ATAC-seq中,收集好组织或者细胞的细胞核之后,使用Tn5 DNA转座酶特异性的结合到染色体开放区域,而那些紧密连接的区域不会受到影响,这样开放区域的染色质DNA会被转座酶随机插入并打断,而转座酶插入时携带测序接头,最后将打断后的DNA收集,建库测序,即ATAC-seq。
3、公共数据库数据下载:
实际上,我很不建议自己跑上游,因为很耗费时间,对设备也有要求,请用服务器(共享的价格、独享的体验---有root权限、可解决问题 (注册领取200优惠券)!)。如果你的数据是公司测的,那么不用但系上游处理的问题,直接用他处理好的进行下游分析即可。但是很多时候,存在我们需要挖掘的情况,如果别人提供了完整的数据可供下游分析还好,倒霉的就是他们不提供,而你又很需要,那就只能自己跑上游了。我们这里演示也是为了让大家了解一下基本流程。
我选取的数据是这篇文章的:https://doi.org/10.1038/s41588-023-01445-4,这篇《nature genetics》文章很友好的公开了自己的数据,我选取了每个组一个样本,也就是总共三个样本用于演示,处理太多对我来说没什么意义。因为我的服务器空间并不大,而scATAC上游有很耗费磁盘空间,所以三个样本分开跑的。和其他挖掘SRR数据库一样,首先利用prefetch下载sra文件,然后利用fastq-dump将sra文件分为FASTQ文件,用cat将分割的文件合并,并按照cellranger要求进行命名:请注意,即使我提供了数据,也不要当作生物学样本去使用,仅仅是演示数据,意义不大!
1525 cat SRR_HC.txt
1526 cat SRR_HC.txt | while read id; do ( prefetch $id & ); done
1528 cd SRR21377796/
1529 fastq-dump -O ./ --gzip --split-files SRR21377796.sra
1530 cd ..
1531 cd SRR21377797/
1532 fastq-dump -O ./ --gzip --split-files SRR21377797.sra
1534 cd new_ATAC/SRR21377812/
1536 fastq-dump -O ./ --gzip --split-files SRR21377812.sra
1537 cd ..
1538 cd SRR21377813
1539 ls
1540 fastq-dump -O ./ --gzip --split-files SRR21377813.sra
1541 cd ..
1543 cat ./SRR21377796/SRR21377796_1.fastq.gz ./SRR21377797/SRR21377797_1.fastq.gz ./SRR21377812/SRR21377812_1.fastq.gz ./SRR21377813/SRR21377813_1.fastq.gz > AA_S1_L001_I1_001.fastq.gz
1544 cat ./SRR21377796/SRR21377796_2.fastq.gz ./SRR21377797/SRR21377797_2.fastq.gz ./SRR21377812/SRR21377812_2.fastq.gz ./SRR21377813/SRR21377813_2.fastq.gz > AA_S1_L001_R1_001.fastq.gz
1548 cat ./SRR21377796/SRR21377796_3.fastq.gz ./SRR21377797/SRR21377797_3.fastq.gz ./SRR21377812/SRR21377812_3.fastq.gz ./SRR21377813/SRR21377813_3.fastq.gz > AA_S1_L001_R2_001.fastq.gz
1549 cat ./SRR21377796/SRR21377796_4.fastq.gz ./SRR21377797/SRR21377797_4.fastq.gz ./SRR21377812/SRR21377812_4.fastq.gz ./SRR21377813/SRR21377813_4.fastq.gz > AA_S1_L001_R3_001.fastq.gz
1575 cat SRR_HC.txt | while read id; do ( prefetch $id & ); done
1576 cd new_ATAC/
1578 cd SRR213777880
1579 cd SRR21377780/
1580 cd new_ATAC/SRR21377780
1581 ls
1582 nohup fastq-dump -O ./ --gzip --split-files SRR21377780.sra &
1583 cd ..
1584 cd SRR21377781
1585 ls
1586 nohup fastq-dump -O ./ --gzip --split-files SRR21377781.sra &
1587 cd ..
1588 cd SRR21377782
1589 ls
1590 nohup fastq-dump -O ./ --gzip --split-files SRR21377782.sra &
1591 cd ..
1592 cd SRR21377783/
1593 nohup fastq-dump -O ./ --gzip --split-files SRR21377783.sra &
1594 cd ..
1595 cat ./SRR21377783/SRR21377783_1.fastq.gz ./SRR21377782/SRR21377782_1.fastq.gz ./SRR21377781/SRR21377781_1.fastq.gz ./SRR21377780/SRR21377780_1.fastq.gz > HC_S1_L001_I1_001.fastq.gz
1596 cat ./SRR21377783/SRR21377783_2.fastq.gz ./SRR21377782/SRR21377782_2.fastq.gz ./SRR21377781/SRR21377781_2.fastq.gz ./SRR21377780/SRR21377780_2.fastq.gz > HC_S1_L001_R1_001.fastq.gz
1597 cat ./SRR21377783/SRR21377783_3.fastq.gz ./SRR21377782/SRR21377782_3.fastq.gz ./SRR21377781/SRR21377781_3.fastq.gz ./SRR21377780/SRR21377780_3.fastq.gz > HC_S1_L001_R2_001.fastq.gz
1598 cat ./SRR21377783/SRR21377783_4.fastq.gz ./SRR21377782/SRR21377782_4.fastq.gz ./SRR21377781/SRR21377781_4.fastq.gz ./SRR21377780/SRR21377780_4.fastq.gz > HC_S1_L001_R3_001.fastq.gz
1602 cd new_ATAC/
1603 tail -f nohup.out
1604 cat SRR_SD.txt | while read id; do ( prefetch $id & ); done
1605 conda activate cellranger
1606 cd SRR21377814
1607 nohup fastq-dump -O ./ --gzip --split-files SRR21377814.sra &
1608 cd ..
1609 cd SRR21377815/
1610 nohup fastq-dump -O ./ --gzip --split-files SRR21377815.sra &
1611 cd ..
1612 cd SRR21377816/
1613 nohup fastq-dump -O ./ --gzip --split-files SRR21377816.sra &
1614 cd ..
1615 cd SRR21377817/
1616 nohup fastq-dump -O ./ --gzip --split-files SRR21377817.sra &
1617 cd ..
1618 ls
1619 cat ./SRR21377814/SRR21377814_1.fastq.gz ./SRR21377815/SRR21377815_1.fastq.gz ./SRR21377816/SRR21377816_1.fastq.gz ./SRR21377817/SRR21377817_1.fastq.gz > SD_S1_L001_I1_001.fastq.gz
1620 cat ./SRR21377814/SRR21377814_2.fastq.gz ./SRR21377815/SRR21377815_2.fastq.gz ./SRR21377816/SRR21377816_2.fastq.gz ./SRR21377817/SRR21377817_2.fastq.gz > SD_S1_L001_R1_001.fastq.gz
1621 cat ./SRR21377814/SRR21377814_3.fastq.gz ./SRR21377815/SRR21377815_3.fastq.gz ./SRR21377816/SRR21377816_3.fastq.gz ./SRR21377817/SRR21377817_3.fastq.gz > SD_S1_L001_R2_001.fastq.gz
1622 cat ./SRR21377814/SRR21377814_4.fastq.gz ./SRR21377815/SRR21377815_4.fastq.
4、安装cellranger-atac,下载参考基因组:
参考10X官网,按照需求下载相应的版本;参考基因组也是提供了人和小鼠的,一定要对应哦:
https://support.10xgenomics.com/single-cell-atac/software/downloads/latest
wget -O cellranger-atac-2.1.0.tar.gz \
"https://cf.10xgenomics.com/releases/cell-atac/cellranger-atac-2.1.0.tar.gz?Expires=1676294517&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1hdGFjL2NlbGxyYW5nZXItYXRhYy0yLjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NzYyOTQ1MTd9fX1dfQ__&Signature=CX4JhovsMLEXYDYPY2GEVv0SaLg3X-KOUBQ-S52aciWgpd996iHomsnN7gulQaws59GywBLaCjwf7mrxGit8Fs6kKJ1IkTbdxVmDKAg9DMFfJ5BwRIck9NX8eeLyBEpDAS6t~WGbfkCViforbugd1tNbBgJRcRN8pIrCnai9GmqZQzzKTbkllArlj3AxKDkPgNin9g6H5cg8D8PcZfFfeu7jdm5rKFdBNtVn1Et45QDQmNoJxuXRngyC5cBKbICUlOmhqE6tOMjuJEBqijVqaLnTSrRRzvyu-rEEuNIdGuIYPwWZQ5RoDh4g0X-ZO60h4RZu3ZoRlEDlsQOlSrJ68w__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
#安装软件
#首先解压
tar -xzvf cellranger-atac-2.1.0.tar.gz
#添加到环境变量
echo 'export PATH=/home/biosoft/cellranger-atac-2.1.0:$PATH' >>~/.bashrc source ~/.bashrc
#查看下帮助文档,是不是安装好了
#ATAC参考基因组下载
wget https://cf.10xgenomics.com/supp/cell-atac/refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
tar -zxvf refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
5、run cellranger-atac count
我是一个一个样本跑的。建议跑的时候nohup挂后台,然后就可以干别的事情了,我这里的样本12h也跑完了,因为时间比较久,万一服务器被你误操作终止了那不得心疼死。不放心中间可检查日志文件,看看是否有报错。
nohup cellranger-atac count --id=SRR_AA --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./ &
nohup cellranger-atac count --id=SRR_HC --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./ &
nohup cellranger-atac count --id=SRR_SD --reference=/home/aaa/biosoft/refdata-cellranger-arc-GRCh38-2020-A-2.0.0 --fastqs=./ &
6、output
最终得到的文件在outs文件夹,有这些,就可以进行下游分析了:web_summary文件可以查看样本数据质量和基本情况!