1、数据获取
转录组原始数据一般以SRA的格式存放于NCBI,并且有一个ID,如一个项目ID:PRJNA778905;单个原始数据的ID:SRP346255。一般转录组一组3个生物学重复,最最简单的实验也有两组就是六个原始数据。
直接使用prefetch 下载,自动下载六个样本
$ prefetch PRJNA778905


#2、转换数据格式
SRA-->fastq 多个文件转换一个一个太麻烦,将所有要转换的SRA文件放一起。用xargs -i 批量生成脚本,-i 的意思是按行处理,将每行内容存储到特殊变量{}中, echo 后接要执行的命令 parallel-fastq-dump --sra-id {} --threads 70 --outdir ../ --split-files --gzip
$ parallel-fastq-dump --sra-id SRR16953033.sra --threads 70 --outdir ../ --split-files --gzip
批量运行脚本
$ ls *.sra |xargs -i echo parallel-fastq-dump --sra-id {} --threads 70 --outdir ./rawdata/ --split-files --gzip & > sra_to_fastq.sh
#3、数据质控过滤
使用软件fastp
conda install -c bioconda fastp
双端数据
简单用法:fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz -c 碱基矫正 -h 报告.html -j 报告.json -W 滑窗质量剪裁,默认4 -M 指定要求的平均质量值,默认是20,也就是Q20
fastp -i SRR16953033_1.fastq.gz -I SRR16953033_2.fastq.gz -o 33.R1.fq.gz -O 33.R2.fq.gz -c -h 33.html -j 33.json -w 16 最大16线程
#4、比对到参考基因组
Bowtie2 和hisat2 下载安装
conda install bowtie2
conda install hisat2
建立参考基因组索引 ,基因组大于4G
$ hisat2-build As.fa As -p 70 --large-index
$ bowtie2-build --threads 70 As.fa As
尝试比对一个转录组测序数据, -p 60线程 --phred33 碱基质量 -1 xx.fastq.gz -2 xx.fastq.gz xx.sam
nohup bowtie2 -p 60 --phred33 -x As -1 ./xiumian_SRA/cleandata/33_1.fastq.gz -2 ./xiumian_SRA/cleandata/33_2.fastq.gz -S 33.sam 2>33.bowtie2.log &
nohup hisat2 -x ./As -p 12 --exon ~/genome/garlic/As_exonSite.txt -1 ../xiumian_SRA/cleandata/33_1.fastq.gz -2 ../xiumian_SRA/cleandata/33_2.fastq.gz -S 33.hisat2.sam >33.hisat2.log &