shift的数据下载矩阵生成之路

要处理四个矩阵文件,分别为GSE109555 GSE136447 GSE36552 GSE66507

从ncbi网站上下载原始.sar文件,以及转化压缩成为.fastq.gz文件

在后台处理利用nohup&或者screen

cat GSE109555.txt | while read i;

do

/data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 9999999999999999999 -O `pwd` $i && echo "**${i}.sra done**";

fastq-dump --split-3  ${i}.sra;

gzip ${i}.fastq

done

————————————生成count矩阵,要求比对率为60%以上————————————

GSE66507,是双端测序文件,长度为50bp

比对过程中出现问题


多是由于数据没有下载完整造成的,此时需要重新下载

先是利用组里的index进行比对;结果还可以?大致有2/3比对率是大于百分之50的


GSE36552,是单端测序文件,长度为100bp

准确率较好,基本可以稳定在55%以上

但是对于

GSE109555,是双端测序文件,长度为150bp

以及

GSE136447,是双端测序文件,长度为150bp

比对率较差,都只有15%左右


更换比对文件Homo_sapiens.GRCh38.99.gtf;hg38_ercc.fa

STAR建立index文件

STAR --runMode genomeGenerate --genomeDir /data/shift/other/index_STAR --runThreadN 20 --genomeFastaFiles hg38_ercc.fa --sjdbGTFfile Homo_sapiens.GRCh38.99.2.gtf

出现问题:.fa和gtf文件里的chr1 和1之间有差异,求助解决

Solution: check the formatting of the GTF file. Most likely cause is the difference in chromosome naming between GTF and FASTA fill

确认文件中的开头

grep -o -E "^\w+([-+.]\w+)*" Homo_sapiens.GRCh38.99.gtf|sort|uniq

将.gtf文件中加chr

#! /user/bin/bash echo "usage: change_vcf_name.sh a | r input_vcf_file  output_vcf_file" echo "a (add) : 添加chr字符到vcf文件中" echo "r (remove): 删除vcf文件中的chr字符"if [ $1 = "a" ]then awk '{        if($0 !~ /^#/)            print "chr"$0;        else if(match($0,/(##contig= $3elif [ $1 = "r" ]then sed 's/##contig= $3elseecho "输入的第一个参数不合适,请输入a或r。"fi

继续建立index文件,而后进行比对:本次比对对数据进行了清洗

#!/bin/bash

cat /data/shift/other/GSE36552/GSE36552.txt|while read i;

do

fastp -i /data/shift/other/GSE36552/GSE36552_data/${i}.fastq.gz  -o /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz;

STAR  --runThreadN  12  --genomeDir /data/shift/other/index_STAR  --readFilesCommand  zcat --readFilesIn  /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz  --sjdbGTFfile /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf --outFileNamePrefix /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_ --outSAMtype BAM SortedByCoordinate;

featureCounts -p -t exon -g gene_id -a /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf -o /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_counts.txt /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_Aligned.sortedByCoord.out.bam;

done

但是比对结果并不尽如人意,比对成功率略低于组里文件:思考建立STAR index时是否应该根据不同的序列长度增加参数 --sjdbOverhang reads长度的最大值减1,默认是100


提出解决办法:随机选取一对文件fastq从中取出50bp(两个文件对称选取)的长度,与人进行比对

先对GSE136447尝试

利用软件seqkit

Download - SeqKit - Ultrafast FASTA/Q kit (shenwei.me)下载软件

操作方法指路:seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能..._刘永鑫Adam的博客-CSDN博客

报错:seqkit无法处理.gz文件

报错:更换剪切长度50,100都报错

截取后文件分析


比对源文件


原文件就有点问题(心酸)

尝试解决途径,仅保留后50位数据,报错不行

更改保留前100数据尝试,比对成功



突然发现小时错了/(ㄒoㄒ)/~~看比对率的文件应该是,*_Log.final.out

GSE66507的比对率为80%以上

GSE36552的比对率为87%以上



现有问题GSE136447 featureCounts的assignment低

按照文章方式进行比对

利用hisat2



我知道为啥我的GSE109555一直都不好使了

原因一:有好多数据都没下完整(可能是由于网络原因),这部分需要重新下载

原因二:文章中说不能直接用star,需要将每一个文件拆分后,将子文件做star

1.利用 zcat SRR8569907_2.fastq.gz | wc -l 与原文件比对(一个一个比啊,愿天堂没有数据不完整)

2.下载 GSE109555_TrioSeq_DataInfo.txt.gz 作为输入执行

perl s01.Barcode_UMI_QC_per1w_V2.pl test_1.fq.gz test_2.fq.gz 不同的文件对应不同应当根据SRR对应的GME查找 ./


打开文件夹以后里面对应的是每个压缩文件

而后就可以执行star了!


85%还挺好,可以说是感动中国了/(ㄒoㄒ)/~~接下来就是等待~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容