200719 Circ之旅2-序列下载及质控

序列的下载与指控

需要的序列

这一步主要是从各大数据库下载别人做好的高通量测序,可能一个样本会测好多次,就要下好多个样本

这次我下的是董老师要求的GSE99531(具体这个基因的研究回头再看)链接如下GSE99531

他的高通量测序是SRP108393,可以看到一共是测了37个样本

然后Send results to Run selector一下,在里面有个Accession List可以把所有序列的名字导出来。

后面是下载了

今天是20200525,没错这个下载序列一下子折腾我三天,前天晚上开始下了,期间试了不少乱七八糟的方法。

一共是用了几个工具,下面一一说一下吧。

sra-tool

这个应该是NCBI官方的一个东西吧。可以去官网看一下怎么用。SRAtool网页参考

这儿用的主要命令就是一个preftech

如果是单个测序文件的话,就是prefetch SRR5635554,多个测序文件可能有点麻烦,首先搞到上一个部分弄到的序列名字导出的SRR_Acc_List.txt,然后cd到这个目录下,之后写一个小循环,这里我抄的生信技能树视频里的。

cat SRR_Acc_List.txt |while read id ;do prefetch $id;done

这句就是,cat读取这个txt里的数据,然后用read逐行读取,并将读到的值放到id中,然后prefetch一下每个id

这儿写了一个循环,语法应该是while [command] ; do [command] ; done

这个是我最后使用的一个命令,应该是最原始的下载NCB数据的操作,但是因为服务器在米国,所以速度非常感人。因为用的虚拟机,后来又折腾了一下才把速度提上来。

Aspera

  • 一开始prefetch速度非常慢,然后我就考虑有没有什么快的方法,然后我去生信技能树求助了一下,虽然最后没找到结果,但是看到了这个工具。所以抱着试一试的心态去看了看

这个可以拿去做参考,基本上按照这个流程就可以:安装Aspera Connect工具下载sra数据

一般来说,NCBI的sra文件在ftp网站里,前面的路径都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/SRR数据前3位/SRR全长/SRR全名.sra

所以我这个路径就是/sra/sra-instant/reads/ByRun/sra/SRR/SRR563/SRR5635554/SRR5635554.sra

然后这个流程有个问题,就是33001端口,基本上路由器都没开,我估计意思就是像ftp那样要把这个端口开起来。如果是在实体机上应该做个转发就行,但是虚拟机就,根本不会搞,尝试着把下面两行打上去但是没用

sudo iptables -I INPUT -p tcp --dport 33001 -j ACCEPT
sudo iptables -I OUTPUT -p tcp --dport 33001 -j ACCEPT

实体机也许可以用?

  • 还有一个是直接上NCBI的ftp,但是好像没权限,要有aspera权限才可以上,但是这个插件对于Win和Mac只支持3.6.6以前的版本。我找了一圈没找到这么早之前的插件所以放弃了。

wget

网上说好像是可以的,但是我基本上等于没成功(可能太久之前的情报了),就放弃了,贴个链接给有缘人尝试吧。使用wget下载NCBI GEO数据库的sra文件

这儿反正常规手段不行了x、

附:找人帮忙

还问了一个加拿带的朋友,想让他帮我下的,问了一下速度,随随便便4~5M/S,呜呜呜呜呜羡慕死了

小插曲

中间下到一半磁盘容量不够了呜呜呜,后来没办法只能关了扩了一次磁盘,真没想到这个数据能有50G。(好不容易遇到一次高速,舍不得断开)

sra转fastq

nohup ls *.sra|while read id; do (fastq-dump --gzip --split-3 -O /home/data/vip14/dick/a549/2_fq/ $id &); done > ../2_fq/nohup.log 2>&1 & 

注:这里必须要有个括号,不然“&”和分号在一起会报错。(原因不明)
解析一下:我所有sra都在circ文件夹下,就搞了个循环对所有sra都做fastq-dump这个命令,--gzip把文件压缩,--split-e出两条fastq,-O导出到文件夹。因为是双向测序,所以会出两个文件。

zless可以将内容显示。

质控

基础语句

fastqc SRR5635537_1.fastq.gz -O ./

没有-O可能会导出到一个没权限的文件夹?

多个一起处理就是

ls *gz |xargs fastqc -t 20 -O ./

-t是可以指示多线程。我电脑好像是32线程的?我跑了之后好像是跑满4个线程。(我四个文件)

如果质控的fastq太多了,生成太多html,会导致没法一个个看,所以要multiqc,语句把所有质控整合到一个表上

前提:所有fastqc都已经跑完了

multiqc ./

去adapter

因为测序序列会有很多adapter,为了去除adapter,要用一个软件来完成这一步。

去完adapter后再质控。

使用代码如下,各个参数懒得翻译了。

trim_galore -q 25  --phred33 --length 25 -e 0.1 --stringency 3 --paired -o dir fq1 fq2

-q/--quality <INT>:Trim low-quality ends from reads in addition to adapter removal.

--phred33:Instructs Cutadapt to use ASCII+33 quality scores as Phred scores(Sanger/Illumina 1.9+ encoding) for quality trimming. Default: ON.

--length <INT>:Discard reads that became shorter than length INT because of either quality or adapter trimming. A value of '0' effectively disables this behaviour. Default: 20 bp.For paired-end files, both reads of a read-pair need to be longer than <INT> bp to be printed out to validated paired-end files (see option --paired). If only one read became too short there is the possibility of keeping such unpaired single-end reads (see --retain_unpaired). Default pair-cutoff: 20 bp.

-e <ERROR RATE>:Maximum allowed error rate (no. of errors divided by the length of the matching region) (default: 0.1)

批量:因为我数据量小所以我,没用过这串?

ls ./raw/*_1.fastq.gz >1
ls ./raw/*_2.fastq.gz >2
paste 1 2 > config
dir='./clean'
cat $config_file |while read id
do
    arr=($id)
    fq1=${arr[0]}
    fq2=${arr[1]}
trim_galore -q 25  --phred33 --length 25 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2
done

跑完trim往回找一步,重新做质控

注:我觉得可以拿一两个出来坐下质控看下有没有adapter,然后一起trim后再批量质控。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容