srr_ftp_url=$1
srr_list=$2
my_current_env=$3
sra_dir=/media/whq/282A932A2A92F3D2/WHQ/mysradata/sra/srafile/sra
genome=/media/whq/282A932A2A92F3D2/WHQ/reference_genome/Homo_sapiens.GRCh38.dna.toplevel.fa
gtf=/media/whq/282A932A2A92F3D2/WHQ/reference_index/ensembl_GRCH38_hisat2_index/Homo_sapiens.GRCh38.99.gtf
index=/media/whq/282A932A2A92F3D2/WHQ/reference_index/ensembl_GRCH38_hisat2_index/ref.fa
get_count_trans=/media/whq/282A932A2A92F3D2/WHQ/myRscript/get_count_trans.R
#数据下载
#建环境,转移文件
#质控
ls -d SRR*|while read id ;do input=$id/$id'.fastq.gz';output=$id/$id'.clean.fastq.gz';fastp -w 10 -i $input -o $output ;done
#比对、sort、删除sam
ls -d SRR*|while read id ;do input=$id/$id'.clean.fastq.gz';output=$id/$id'.sam';hisat2 -p 15 --dta -x $index -U $input -S $output ;samtools sort -@ 10 --output-fmt BAM -o $id/$id'.sorted.bam' $id/$id'.sam' ;samtools index -@ 5 $id/$id'.sorted.bam';sam=$id/$id*'.sam';echo $sam;rm $sam ;done
#stringtie 这里希望能得到新的转录本!
ls -d SRR*|while read id;do input=$id/$id'.sorted.bam' ; output=$id/$id'.gtf' ;stringtie -o $output -p 10 -G $gtf -B -l $id $input;echo $id ;done
ls -d SRR*|while read id ;do find ./ -path './'$id'*' -name $id.gtf ;done >gtf.list
echo "merge function may error"
#注意,merge不知为何原因无法放在文件里跑,只能做代码跑
stringtie --merge -p 10 -G $gtf -o total_merged.gtf -l merge gtf.list
echo "merge function success!"
#使用gffcompare软件将merge与annotation比较
mkdir gffcompare
gff_prefix=./gffcompare/gffcompare
gffcompare -G -r $gtf -o $gff_prefix total_merged.gtf
mv gff*'map' gffcompare
#通过prepDE.py程序提取表达矩阵,stringtie2.1及以后就不会报错了,但是之前的数据要重新要stringtie跑一下
awk -F "/" '{print $2}' gtf.list >sample.list
ls -d SRR*|while read id;do find ./ -path './'$id'*' -name *.merged.gtf ;done >merged.gtf1
paste sample.list merged.gtf1 >merged.gtf
#提取表达矩阵
mkdir count
mkdir transcript
prepDE.py -i merged.gtf -g ./count/gene_count_matrix_merged.csv -t ./transcript/transcript_count_matrix_merged.csv
#将产生的ball gown文件进行归类
mkdir ballgown_merged
ls -d SRR*|while read id ;do mkdir ./ballgown_merged/$id ;mv $id/*'ctab' ./ballgown_merged/$id/;done
#将数据读入R中用ballgown处理
#此处暂时不写!
单端测序的RNAseq处理流程
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 单端测序 我的理解就是一条序列测到头 paired-end测序 正常的illumina测序,如图下 mate-pa...
- 质量汇报生成与读取 fastq质量汇报 使用命令fastqc -o 来进行质量报告。 需要注意的是./fas...
- # 一、翻译调控:原核生物:基因表达的调控主要在转录水平上进行;真核生物:由于RNA较为稳定,除了存在转录水平的调...
- 1、fastq文件 一般我们从公司里得到的原始测序数据都是属于fastq.gz文件, .gz是一种压缩格式的缩写,...