hisat2的index差别

1.下载三个index:

2.重命名为:

hisat2_grcm38_genome_index/genome [1-sam]

hisat2_grcm38_genome_snp_tran_index/genome_snp_tran [1-sam]

hisat2_mm10_genome_index/genome [1-sam]

3.hisat2比对命令:

hisat2 -p 10 -x ../hisat2_grcm38_genome_index/genome -1 R1.fq -2 R2.fq -S 1.sam

hisat2 -p 10 -x ../hisat2_grcm38_genome_snp_tran_index/genome_snp_tran -1 R1.fq -2 R2.fq -S 2.sam

hisat2 -p 10 -x ../hisat2_mm10_genome_index/genome -1 R1.fq -2 R2.fq -S 3.sam

4.比对率:

1-sam
2-sam
3-sam

嘿嘿:比对发现转录本的比对率高

导入igv也没啥差异

5.查看sam文件寻找差异:

也就chr是不同的

6.看chr有哪些?

1和2的sam
3的sam

结论:基因组还是有差别的,也就是说后续的gtf不能混用!


7.下载查看gtf:

gencode:

axel -n 50 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/gencode.vM19.chr_patch_hapl_scaff.annotation.gtf.gz

gencode.vm19.GRCm38.all.ano.gtf

gencode

ensembl:

axel -n 20 ftp://ftp.ensembl.org/pub/release-94/gtf/mus_musculus/Mus_musculus.GRCm38.94.chr_patch_hapl_scaff.gtf.gz

ensembl.GRCm38.94.all.ano.gtf

ensembl

NCBI:

wget -c ftp://ftp.ncbi.nih.gov/genomes/M_musculus/GFF/ref_GRCm38.p4_top_level.gff3.gz

ncbi.GRCm38.p4.all.ano.gff3

看不懂

UCSC:

UCSC

结论:

hisat2-GRCm38-index比对后:

无--add-chrname,则肯定用enseml的gtf

若加了--add-chrname,则用gencode的gtf改造“+chr”/或者ensembl改造也行“+chr”

hisat2-mm10-index比对后:

使用UCSC的gtf

就转录本而言,其实用哪个都行...

gencode和ensembl的gtf的确是相同的

8.下载查看fasta:

gencode:

axel -n 100 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/GRCm38.p6.genome.fa.gz

GRCm38.p6.genome.fa

gencode

ensembl:

axel -n 100 ftp://ftp.ensembl.org/pub/release-94/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna_sm.toplevel.fa.gz

Mus_musculus.GRCm38.dna_sm.toplevel.fa

ucsc:

axel -n 30 ftp://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

cat *.fa > mm10.fa

ucsc

查看具体序列:

相同的!!!

结论:三者大部分相同,也有略微不同

gencode和ucsc有chr

ensembl没有chr

相比较而言,gencode和ensembl比较像,但是基本的fasta并不影响。

总结论:

使用哪个基因组的fasta都ok

使用gencode和ensembl的gtf也是一样的

差别在chr这块

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言:写这篇文章的目的是为了梳理一下学习思路,按部就班地仿生信菜鸟团和简书:Y大宽教程大纲,做归纳整理,即便再次运...
    谢俊飞阅读 7,279评论 3 20
  • 生信学习笔记 linux部分功能 查看文件夹 工具 选项 可以设置鼠标功能 可以设置右键粘贴 双击这个窗口可以再打...
    Vikenn阅读 1,189评论 1 4
  • 比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。直接去hisat2...
    JeremyL阅读 7,462评论 1 10
  • 转自:https://blog.csdn.net/sinat_38163598/article/details/7...
    简单点lili阅读 4,382评论 0 9
  • 这个部分主要是序列比对和reads读取,别人的帖子写的很全面,但有点复杂,需要兼顾来看。 https://www....
    苏慕晨枫阅读 905评论 0 1