前言
本课程来源于生信技能树。
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!
文献解析
mRNA-Seq
测序类型:PE 51bp
比对工具:TopHat (v2.0.13) 参考基因组:hg19
read统计:HTSeq (v0.6.0) 差异基因分析:DESeq (v3.0)
差异外显子:DEXSeq (v3.1)
others:BEDTools (v2.17.0)、bedGraphToBigWig tool (v4)
RIP-Seq
Peak calling: MACS (v1.4.2 20120305) Motif finding: HOMER (v3.12, 6-8-2012)
others:bedGraphToBigWig、ngs.plot (v2.47)
通过查询GEO数据库,GSE81916包括人和小鼠的数据,本次只下载小鼠数据作为练习。
数据下载
通过ftp链接,找到最后4个小鼠的数据,用校园网直接通过浏览器下载。也可以wget循环下载
for((i=59; i<63; i++)); do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747SRR35899$i/SRR35899$i.sra; done
。
PS: 推荐使用Aspera下载:
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zvxf aspera-connect-3.7.4.147727-linux-64.tar.gz
./aspera-connect-3.7.4.147727-linux-64.sh
echo 'PATH=$PATH:~/.aspera/connect/bin/' >> ~/.profile
source ~/.profile
for((i=59; i<63; i++)); do ascp -k 1 -T -l 800M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747SRR35899$i/SRR35899$i.sra . ; done
# EBI中arrayexpress的数据下载
ascp -QT -l 800M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/ERR032/ERR032203/. .