这里是佳奥,终于来到了转录组分析部分,让我们开始吧!
1 数据资源下载,参考基因组及参考转录组
gtf
genome.fa
1.1 确定项目物种
NCBI UCSC Ensembol :三个数据库的ftp服务器
Google搜索: hg38 ftp ucsc
参考基因组网站:
我选择基因组最小之一的肠杆菌Ciona intestinalis genome
其中ci3.fa.gz就是我们的目标文件。
Name Last modified Size Description Parent Directory -
ci3.2bit 2015-08-06 10:52 34M
ci3.agp.gz 2016-01-08 15:13 145K
ci3.chrom.sizes 2015-08-06 09:54 33K
ci3.chromAlias.txt 2020-09-29 10:48 58K
ci3.fa.gz 2016-01-08 15:13 36M
ci3.fa.masked.gz 2016-01-08 15:13 27M
ci3.fa.out.gz 2016-01-08 15:13 3.7M
ci3.gc5Base.wib 2019-01-17 14:45 22M
ci3.gc5Base.wig.gz 2019-01-17 14:45 452K
ci3.gc5Base.wigVarStep.gz 2015-08-06 09:56 56M
ci3.trf.bed.gz 2016-01-08 15:13 69K
est.fa.gz 2017-05-05 15:32 250M
est.fa.gz.md5 2017-05-05 15:32 44
genes/ 2020-10-02 13:37 -
md5sum.txt 2019-01-17 15:52 652
mrna.fa.gz 2017-05-05 13:59 4.6M
mrna.fa.gz.md5 2017-05-05 13:59 45
refMrna.fa.gz 2017-05-05 15:34 713K
refMrna.fa.gz.md5 2017-05-05 15:34 48
upstream1000.fa.gz 2016-01-08 15:14 249K
upstream2000.fa.gz 2016-01-08 15:14 474K
upstream5000.fa.gz 2016-01-08 15:14 1.1M
xenoRefMrna.fa.gz 2017-05-05 15:33 298M
xenoRefMrna.fa.gz.md5 2017-05-05 15:33 52
当然看个人习惯,可以直接
wget https://hgdownload.soe.ucsc.edu/goldenPath/ci3/bigZips/ci3.fa.gz
或者在Windows下载后把压缩包上传至Linux(一般这样更快)。
在这之前在Linux新建reference/ci3目录。
看一下下载好的文件:
$ gzip -d ci3.fa.gz
$ less -S ci3.fa
>chr1
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
aaCCCCTAACTGCTAGCCCCTGCCCCcgtaaccaccaacctctaacactt
tccaccagcccaatctgtaacgtaccaagggattcttcactagtgccacA
GTTTCTAATacagaataaacaaaattcacTTAACTTGACCAAACAATATT
CTGCTTTCAACATTATAGAACAACCTACTcactataaaaaaacacatggc
gcctgaaaaatatgtttataaaaacaatatacttATTTCGTatcaaaaac
attcaaaacatATCAATTCAAAACGCAGGCTTTACTAAACTCATTACAAA
ATGCGGCAAATTCAAAGTGAAGAGGTATAGTACCTCGTCTAATCGTTTTA
ATACCTAAAACTTACATACGAAATGAGTATTACCACTTAGCCACTCAAAG
CAAATTGAAATGCGCGCGGCTCGAACCTCAATGGGGTCACGTGACAGGTC
GCGGTCGGCCGATCACGAACAACAGCTGTCGAGAATCGTTTACTACGAAG
CTAAGGGACGTGTCTACTCTGTAGCATTGGGCAGATGCCGTTAGGAAAGT
2 质控,需要fastqc及multiqc
trimmomatic
cutadapt
trim_galore
3 比对
star
hisat2
tophat2
bowtie2
bwa
subread
4 计数
htseq
bedtools
deeptools
5 normalization 归一化,差异分析等
DEseq2
edgeR
limma()
6 小结
这一篇我们梳理了大致的流程,寻找研究对象的参考基因组并下载。
下一篇我们将进入软件安装的内容。
我们下一篇再见!