Homo sapiens,neuron神经元细胞的数据分析;
1. rawdata数据处理
下载数据
vim download_data.sh
#!/bin/bash
for i in 806 807 809 810 811 812 813 817
do
prefetch-orig.2.10.8 `srapath-orig.2.10.8 SRR13764${i}`
done
qsub -N download -cwd download.sh -q g5.q
sra2fastq
single end 75 bp
vim sra2fastq.sh
#!/bin/bash
for i in 806 807 809 810 811 812 813 817
do
fastq-dump-orig.2.10.8 --split-3 -O fastq --gzip SRR13764${i}/SRR13764${i}.sra
done
qsub -N fastq -cwd sra2fastq.sh
fastqc
vim fastqc.sh
#!bin/bash
for i in 806 807 809 810 811 812 813 817
do
fastqc SRR13764${i}.fastq.gz -o fastqc
done
qsub -N fastqc -cwd fastqc.sh -q g5.q
trim_galore
vim trim_galore.sh
#!bin/bash
for i in 806 807 809 810 811 812 813 817
do
trim_galore --output_dir clean_data -q 25 --phred33 --length 36 SRR13764${i}.fastq.gz
done
qsub -N trim_galore -cwd trim_galore.sh -q g5.q
2. Bowtie2 比对
介绍:生信软件 | bowtie2(测序序列与参考序列比对) - 云+社区 - 腾讯云 (tencent.com)
下载基因组hg19
wget -t 0 -c -b https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
-c :如果下载一半断网中断了,wget -c +网址 可以续下载;
-t 0 :如果网速很慢, 总断开重新连接,“-t 0 ”会让他一直重试,直到把文件下载完成;
-b:后台下载;
检查下载数据的完整性
$md5sum hg19.fa.gz
806c02398f5ac5da8ffd6da2d1d5d1a9 hg19.fa.gz
$echo "806c02398f5ac5da8ffd6da2d1d5d1a9 hg19.fa.gz" > check_md5sum.txt
#将数据写入check_md5sum.txt文件
$md5sum -c check_md5sum.txt
#检测数据是否一致
hg19.fa.gz: OK
构建bowtie2索引文件
vim index.sh
#!/bin/bash
bowtie2-build hg19.fa hg19
qsub -N index -cwd index.sh
生成6个文件:
926M Apr 14 17:41 hg19.1.bt2
691M Apr 14 17:41 hg19.2.bt2
4.8K Apr 14 17:18 hg19.3.bt2
691M Apr 14 17:18 hg19.4.bt2
926M Apr 14 18:01 hg19.rev.1.bt2
691M Apr 14 18:01 hg19.rev.2.bt2
bowtie2比对 一步完成
vim bowtie2.sh
for i in 806 807 809 810 811 812 813 817
do
bowtie2 -p 10 -x ~/chipseq/genome/index/bowtie_index/hg19 -U SRR13764${i}_trimmed.fq | samtools sort -O bam -@ 10 -o - > SRR13764${i}.bam
done
#循环生成bam文件
sort:对bam文件进行排序(不能对sam文件进行排序)
-O:--output format (SAM, BAM)
-@:samtools中设置排序和压缩的线程数,默认单线程
分两步完成的步骤:(1)运行bowtie2 获取 SAM 文件
nohup bowtie2 -p 10 -x ~/chipseq/genome/index/bowtie_index/hg19 -U SRR13764809_trimmed.fq -S CTCF_ChIP-seq.hg19.sam&
-S:write hits in SAM format;-q:query input files are fastq
(2) samtools转换排序为bam格式
samtools view -bS CTCF_ChIP-seq.hg19.sam > CTCF_ChIP-seq.hg19.bam
#sam转bam
samtools sort -@ 10 CTCF_ChIP-seq.hg19.bam > CTCF_ChIP-seq.hg19.sorted.bam
#排序
sam格式详解:SAM文件的每一行代表一个reads的比对情况,包含12列(tab分割),从左往右,每一列的含义不同。
第一列:测序出来的reads序列数据名
第二列:flag之和
第三列:参考基因组的染色体名
第四列:比对到这个染色的具体位置(从1'端开始)如9486878
第五列:比对质量,是一个衡量比对好坏的打分结果,越高越好
第六列:比对具体信息的表达式 CIGAR字符串,M:完全比配;D:缺失。如49M表示连续49个完全匹配
第七列:=表示参考序列与reads一模一样,*表示没有完全一模一样的参考序列
第十列:reads碱基序列。
第十一列:ASCII 编码的read碱基质量
参考讲解:BOWTIE2 进行基因组比对 - 简书 (jianshu.com)
第二列flag的含义 :(1,2,4,8,16,32…)每个整数代表不同的含义。参考讲解:(5条消息) 2019/2/20_*.bam 与 *.sam文件中的flag的含义和统计结果_super_qun的博客-CSDN博客_bam flag
第六列GIGAR的含义: