shift的数据下载矩阵生成之路

要处理四个矩阵文件,分别为GSE109555 GSE136447 GSE36552 GSE66507

从ncbi网站上下载原始.sar文件,以及转化压缩成为.fastq.gz文件

在后台处理利用nohup&或者screen

cat GSE109555.txt | while read i;

do

/data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 9999999999999999999 -O `pwd` $i && echo "**${i}.sra done**";

fastq-dump --split-3  ${i}.sra;

gzip ${i}.fastq

done

————————————生成count矩阵,要求比对率为60%以上————————————

GSE66507,是双端测序文件,长度为50bp

比对过程中出现问题


多是由于数据没有下载完整造成的,此时需要重新下载

先是利用组里的index进行比对;结果还可以?大致有2/3比对率是大于百分之50的


GSE36552,是单端测序文件,长度为100bp

准确率较好,基本可以稳定在55%以上

但是对于

GSE109555,是双端测序文件,长度为150bp

以及

GSE136447,是双端测序文件,长度为150bp

比对率较差,都只有15%左右


更换比对文件Homo_sapiens.GRCh38.99.gtf;hg38_ercc.fa

STAR建立index文件

STAR --runMode genomeGenerate --genomeDir /data/shift/other/index_STAR --runThreadN 20 --genomeFastaFiles hg38_ercc.fa --sjdbGTFfile Homo_sapiens.GRCh38.99.2.gtf

出现问题:.fa和gtf文件里的chr1 和1之间有差异,求助解决

Solution: check the formatting of the GTF file. Most likely cause is the difference in chromosome naming between GTF and FASTA fill

确认文件中的开头

grep -o -E "^\w+([-+.]\w+)*" Homo_sapiens.GRCh38.99.gtf|sort|uniq

将.gtf文件中加chr

#! /user/bin/bash echo "usage: change_vcf_name.sh a | r input_vcf_file  output_vcf_file" echo "a (add) : 添加chr字符到vcf文件中" echo "r (remove): 删除vcf文件中的chr字符"if [ $1 = "a" ]then awk '{        if($0 !~ /^#/)            print "chr"$0;        else if(match($0,/(##contig= $3elif [ $1 = "r" ]then sed 's/##contig= $3elseecho "输入的第一个参数不合适,请输入a或r。"fi

继续建立index文件,而后进行比对:本次比对对数据进行了清洗

#!/bin/bash

cat /data/shift/other/GSE36552/GSE36552.txt|while read i;

do

fastp -i /data/shift/other/GSE36552/GSE36552_data/${i}.fastq.gz  -o /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz;

STAR  --runThreadN  12  --genomeDir /data/shift/other/index_STAR  --readFilesCommand  zcat --readFilesIn  /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz  --sjdbGTFfile /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf --outFileNamePrefix /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_ --outSAMtype BAM SortedByCoordinate;

featureCounts -p -t exon -g gene_id -a /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf -o /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_counts.txt /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_Aligned.sortedByCoord.out.bam;

done

但是比对结果并不尽如人意,比对成功率略低于组里文件:思考建立STAR index时是否应该根据不同的序列长度增加参数 --sjdbOverhang reads长度的最大值减1,默认是100


提出解决办法:随机选取一对文件fastq从中取出50bp(两个文件对称选取)的长度,与人进行比对

先对GSE136447尝试

利用软件seqkit

Download - SeqKit - Ultrafast FASTA/Q kit (shenwei.me)下载软件

操作方法指路:seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能..._刘永鑫Adam的博客-CSDN博客

报错:seqkit无法处理.gz文件

报错:更换剪切长度50,100都报错

截取后文件分析


比对源文件


原文件就有点问题(心酸)

尝试解决途径,仅保留后50位数据,报错不行

更改保留前100数据尝试,比对成功



突然发现小时错了/(ㄒoㄒ)/~~看比对率的文件应该是,*_Log.final.out

GSE66507的比对率为80%以上

GSE36552的比对率为87%以上



现有问题GSE136447 featureCounts的assignment低

按照文章方式进行比对

利用hisat2



我知道为啥我的GSE109555一直都不好使了

原因一:有好多数据都没下完整(可能是由于网络原因),这部分需要重新下载

原因二:文章中说不能直接用star,需要将每一个文件拆分后,将子文件做star

1.利用 zcat SRR8569907_2.fastq.gz | wc -l 与原文件比对(一个一个比啊,愿天堂没有数据不完整)

2.下载 GSE109555_TrioSeq_DataInfo.txt.gz 作为输入执行

perl s01.Barcode_UMI_QC_per1w_V2.pl test_1.fq.gz test_2.fq.gz 不同的文件对应不同应当根据SRR对应的GME查找 ./


打开文件夹以后里面对应的是每个压缩文件

而后就可以执行star了!


85%还挺好,可以说是感动中国了/(ㄒoㄒ)/~~接下来就是等待~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容