(1)ATAC-seq和RNA-seq联合分析——原始数据的获取

前言

以这篇文章 Chromatin Accessibility-Based Characterization of the Gene Regulatory Network Underlying Plasmodium falciparum Blood-Stage Development 为例,发表于 Cell Host Microbe. (IF=15.793)。

这篇文章主要是利用染色质可接近信息性来解析恶性疟原虫在红内期基因调控网络的特征 ,选这篇文章的原因是因为其用到了ATAC-seq和RNA-seq联合分析,其中也结合了部分Chip-seq的信息,比较全面。另外,其主要研究物种恶性疟原虫的基因组较小(23Mb左右),适合使用小服务器或者自己的电脑分析。

背景资料

恶性疟原虫Plasmodium falciparum)是一种原生动物寄生虫,是引发人类疟疾的疟原虫的一种,由雌性疟蚊传播。该型疟原虫引发的疟疾是所有疟疾中死亡率最高的一种。屠呦呦团队研究的青蒿素就是对抗这种恶性疟原虫引起的疟疾的药品。

数据资料

Data table

看一下该文章中用到的数据,发现其用到了ATAC-seq、RNA-seq和chip-seq的数据。恶性疟原虫的基因组、转录本、和蛋白组也给出了相应的链接。基因组、转录本、和蛋白组信息直接点开链接或者复制地址用wget就可以下载,这里就不赘述了。下面看一下组学的数据。

在NCBI中找到Project: GSE104075 ,我们进入其 Send results to Run selector 数据里看一下,发现其一共有26个数据,包含了18个ATAC-seq数据和8个RNA-seq数据。详细信息可以点击RunInfo Table下载。

Run table

同样找到GSE80293, 其有9个Chip-seq的实验数据,具体内容还要参见Red Blood Cell Invasion by the Malaria Parasite Is Coordinated by the PfAP2-I Transcription Factor这篇文章。

看一下18个ATAC-seq的数据,其用的是双端测序,150 bp,测了8个不同时期的数据,另外还有2个野生型ring stage 的疟原虫的gDNA来进行校正(对照?)

To control for sequence bias, the same ATAC protocol was applied to genomic DNA from synchronous wild-type 3D7 P. falciparum ring stage parasites using 547.0 ng or 60.8 ng of input DNA.

Run Assay Type AvgSpotLen developmental_stage LibraryLayout LibrarySource source_name input
SRR6055335 ATAC-seq 150 ring stage PAIRED GENOMIC red blood cell stage, 0-20 hours post invasion 547.0 ng genomic DNA
SRR6055336 ATAC-seq 150 ring stage PAIRED GENOMIC genomic DNA red blood cell stage, 0-20 hours post invasion 60.8 ng of genomic DNA
SRR6055333 ATAC-seq 150 medium schizont PAIRED GENOMIC red blood cell stage, 27-35 hours post invasion
SRR6689450 ATAC-seq 150 medium schizont PAIRED GENOMIC red blood cell stage, 27-35 hours post invasion
SRR6055328 ATAC-seq 150 medium ring stage PAIRED GENOMIC red blood cell stage, 2-10 hours post invasion
SRR6689445 ATAC-seq 150 medium ring stage PAIRED GENOMIC red blood cell stage, 2-10 hours post invasion
SRR6055331 ATAC-seq 150 late trophozoite PAIRED GENOMIC red blood cell stage, 17-25 hours post invasion
SRR6689448 ATAC-seq 150 late trophozoite PAIRED GENOMIC red blood cell stage, 17-25 hours post invasion
SRR6055334 ATAC-seq 150 late schizont PAIRED GENOMIC red blood cell stage, 32-40 hours post invasion
SRR6689451 ATAC-seq 150 late schizont PAIRED GENOMIC red blood cell stage, 32-40 hours post invasion
SRR6055329 ATAC-seq 150 late ring stage PAIRED GENOMIC red blood cell stage, 7-15 hours post invasion
SRR6689446 ATAC-seq 150 late ring stage PAIRED GENOMIC red blood cell stage, 7-15 hours post invasion
SRR6055330 ATAC-seq 150 early trophozoite PAIRED GENOMIC red blood cell stage, 12-20 hours post invasion
SRR6689447 ATAC-seq 150 early trophozoite PAIRED GENOMIC red blood cell stage, 12-20 hours post invasion
SRR6055332 ATAC-seq 150 early schizont PAIRED GENOMIC red blood cell stage, 22-30 hours post invasion
SRR6689449 ATAC-seq 150 early schizont PAIRED GENOMIC red blood cell stage, 22-30 hours post invasion
SRR6055327 ATAC-seq 150 early ring stage PAIRED GENOMIC red blood cell stage, 40-5 hours post invasion
SRR6689444 ATAC-seq 150 early ring stage PAIRED GENOMIC red blood cell stage, 40-5 hours post invasion

看一下8个RNA-seq的数据,其用的是链特异性(Strand-specific )RNA-seq,关于链特异性RNA-seq可以参考这两篇博文:什么是链特异性的RNA-Seq?链特异性测序那点事后续还需自己学习)。单端测序,75 bp,测了8个不同时期的数据,和ATAC-seq的8个时期相对应。

Run Assay Type AvgSpotLen developmental_stage LibraryLayout LibrarySource source_name
SRR6055343 RNA-Seq 75 medium schizont SINGLE TRANSCRIPTOMIC red blood cell stage, 27-35 hours post invasion
SRR6055338 RNA-Seq 75 medium ring stage SINGLE TRANSCRIPTOMIC red blood cell stage, 2-10 hours post invasion
SRR6055341 RNA-Seq 75 late trophozoite SINGLE TRANSCRIPTOMIC red blood cell stage, 17-25 hours post invasion
SRR6055344 RNA-Seq 75 late schizont SINGLE TRANSCRIPTOMIC red blood cell stage, 32-40 hours post invasion
SRR6055339 RNA-Seq 75 late ring stage SINGLE TRANSCRIPTOMIC red blood cell stage, 7-15 hours post invasion
SRR6055340 RNA-Seq 75 early trophozoite SINGLE TRANSCRIPTOMIC red blood cell stage, 12-20 hours post invasion
SRR6055342 RNA-Seq 75 early schizont SINGLE TRANSCRIPTOMIC red blood cell stage, 22-30 hours post invasion
SRR6055337 RNA-Seq 75 early ring stage SINGLE TRANSCRIPTOMIC red blood cell stage, 40-5 hours post invasion

文章中对于chip-seq测序的描述。

Magna ChIP protein A+G magnetic beads (Millipore) (ChIP replicates 1 and 2) or protein A salmon sperm agarose beads (Millipore) (ChIP replicate 3), an input sample was collected and the rest of the chromatin was incubated overnight at 4C with 1 mg of polyclonal anti-GFP or, as control, the same amount of IgG.

两种抗体(anti-GFP 和anti-IgG,其中anti-IgG是对照),还有一组没有没有用抗体。3次重复,用了两种磁珠,rep1 rep2用的是 A+G magnetic beads,rep3用的是agarose beads。

关于chip-seq的对照使用参见Kai的博文,摘抄如下:

  1. 什么是input:样本经过超声,但是没有进行ChIP,包含样本超声后总DNA,开头进行的电泳,检测超声效果,同时,可以与最后ChIP样本进行比较,判断ChIP的效率(如果用同一引物进行PCR,ChIP组和input组亮度差不多,说明ChIP效率高,样本中所有的目的基因片段都被ChIP下来了,繁殖,说明效率低,实验条件有待改进)
  2. 什么是IgG:用普通的IgG做为抗体,理论上不会ChIP下来任何DNA片段,但是由于非特异结合,或者实验过程中,没有发生结合的DNA清除不完全,可能也会出现条带。(ps.似乎IgG的抗体也无需上机测序,只是判断IP试验中所选取的抗体是否特异。

阳性对照:

一般用anti-RNA polymerase II抗体,因为RNA polymerase II是通用转录因子,在所有细胞中都能结合基因的核心启动子区,因此理论上,ChIP后PCR会有条带。一般阳性对照不进行测序。

9个数据,单端测序,150bp

Run Assay Type AvgSpotLen chip_antibody LibraryLayout LibrarySelection LibrarySource source_name
SRR5114667 ChIP-Seq 150 None SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, input
SRR5114670 ChIP-Seq 150 None SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, input
SRR5114673 ChIP-Seq 150 None SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, input
SRR5114666 ChIP-Seq 150 Anti-IgG (Abcam ab27472) SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, IgG ChIP
SRR5114669 ChIP-Seq 150 Anti-IgG (Abcam ab27472) SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, IgG ChIP
SRR5114672 ChIP-Seq 150 Anti-IgG (Abcam ab27472) SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, IgG ChIP
SRR5114665 ChIP-Seq 150 Anti-GFP (Abcam ab290) SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, GFP ChIP
SRR5114668 ChIP-Seq 150 Anti-GFP (Abcam ab290) SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, GFP ChIP
SRR5114671 ChIP-Seq 150 Anti-GFP (Abcam ab290) SINGLE ChIP GENOMIC PfAP2-I-GFP DNA, GFP ChIP

资料下载

所需软件:sra-tools,可直接用conda下载

conda install -c bioconda sra-tools

所需表单:sra.list

将表格中的run ID 复制到一个文档里,命名为sra.list

less sra.list
SRR6055327
SRR6689444
SRR6055332
SRR6689449
SRR6055343
SRR6055330
SRR6689447  ..... 

这里踩过一个坑,提取的list里有CR,下一步使用prefetch的时候会报错。这个图是没有CR的,在notepad里显示所有字符就可以看到是否含有CR,关于CR和LF的区别可以参考这里

Notepad++ 换行符

命令:

  1. 直接使用prefetch

    prefetch --option-file sra.list

  2. 使用脚本,命名为download_srr.sh,内容如下:

    for id in `cat sra.list`;do
    nohup prefetch $id
    done
    
  3. 之后会自动下载所有文件,下载过程中输出的内容会存入nohup.out 里,下载的sra文件储存在/home/ncbi/public/sra 下

#2019-11-19T11:11:22 prefetch.2.9.6: 1) Downloading 'SRR6689446'...
#2019-11-19T11:11:22 prefetch.2.9.6:  Downloading via https...
#2019-11-19T11:15:38 prefetch.2.9.6:  https download succeed
#2019-11-19T11:15:38 prefetch.2.9.6: 1) 'SRR6689446' was downloaded successfully
#2019-11-19T11:15:38 prefetch.2.9.6: 'SRR6689446' has 0 unresolved dependencies
ls *.sra
#SRR6055327.sra  SRR6689444.sra  SRR6689445.sra

资料解压

从NCBI中下到的是sra文件,需要使用fastq-dump将sra文件转化成fastq文件。

具体使用方法参见洲更大神的简书Fastq-dump: 一个神奇的软件

其实根据他文章所说,可以都按照双端测序的流程就行解压。具体我没有测试,我是把双端和单端数据(也就是ATAC-seq和RNA-seq)分别进行处理的。将单端的ID命名为single.txt, 双端测序的ID命名为paired.txt。对于双端测序的文件。

for id in `cat ../paired.txt`; do
  fastq-dump --gzip --split-3 ./${id}.sra
done

对于单端测序的文件

for id in `cat ../single.txt`; do
  fastq-dump --gzip ./${id}.sra
done

看一下解压出来的结果,一共44个文件,都是fastq.gz,也就是fastq的压缩文件。

ls *.gz
#SRR6055327_1.fastq.gz  SRR6055331_2.fastq.gz  SRR6055336_1.fastq.gz  SRR6055344.fastq.gz #SRR6689448_1.fastq.gz SRR6055327_2.fastq.gz  SRR6055332_1.fastq.gz .....
ls *.gz |wc -l 
#44

看看有多少双端测序文件,因为双端测序会以_分开,故可以使用以下代码统计个数。

ls *_*.gz| wc -l  #wc -l 统计行数
#36
ls *_*.gz| grep -c _
#36

ATAC-seq一共18*2, 36个没问题。再看看有多少单端测序文件。

ls *.gz| grep -cv _  #grep -c 个数 -v不匹配的项目
#17

RNA-seq一共8个, chip-seq9个,也没有问题。

结语

好了,现在拿到了fastq的原始数据。下一步应该对原始数据进行质控了,下一篇见!加油!努力记录自己的点滴。另外还要多学习一下grep、awk和sed的用法,实在是用的太不熟练了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容