snpEff注释结果各区域统计之和大于变异总数?

问题一:各区域注释之和大于变异总数?

snpEff的结果很简单,但常常遇到如下问题。
我的SNP总数:


image.png

但是,注释的exon、intron和intergenic之和2,278,570就已经大于了总SNP数。

image.png

我大概能知道是什么原因。一个snp会落在多个基因上,所以既有可能落在exon,又有可能落在intron区,最后会大于总snp。同样,一个gene有多个转录本也会出现这样的情况。如果是Indel或者其他结构变异,这种情况更加可能发生了。

关键是,我看一些高水平文章的统计中,往往注释各区域之和少于或等于总的snp数,如:


image.png

image.png

他们是如何处理,怎样才能得到这样的结果呢?snpEff结果文档没说,网上也无解。有人用最佳transcript,但还是会出现这种情况。
number of functions is more than namber of variants in snpEff's output

问题二:注释Region出现Gene和transcript等区域?

在一些注释结果中,特别是大的结构变异中,常常还会出现gene、transcript之类的变异统计,有些则没有。按说有exon,应该都会落在gene,为什么gene时有时无。这如何理解?


image.png

同样,该问题snpEff文档中也没有详细解释。

希望有大佬指点一二。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 写在前面在进行基因组学研究中,总避免不了对一些SNP和Indel进行分析,如何去注释它们的,就需要用到SnpEff...
    巩翔宇Ibrahimovic阅读 7,140评论 0 6
  • 基本概念 SNP:单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。 SNP位点注释...
    EwanH阅读 19,312评论 0 28
  • 一、snpeff 对vcf文件增加新字段注释ANN 二、安装snpeff 使用wget下载 $ wget ht...
    格里菲甘阅读 6,061评论 1 1
  • 上一期,给大家介绍了SnpEff注释数据库。这一期着重介绍SnpEff的命令,最后一期介绍注释结果解析 准备文件已...
    APExBIO阅读 16,438评论 1 22
  • 结果文件的解读 输出文件1:*.variant_function 第一个文件包含所有变异的注释,方法是在每个输入行...
    生信师姐阅读 22,042评论 2 42

友情链接更多精彩内容