bedtools getfasta提取基因序列实战

由gtf文件得到含CDS坐标的bed文件,并提取CDS序列

  • 首先要注意,gtf文件的序列起始坐标减一,才是bed文件的起始坐标!!!
    因为gtf的第一个碱基记为1,但是bed文件的第一个碱基记为0。
    比如我提取的含有起始密码子的序列应该是这样的
    含起始密码子序列

    gtf文件中显示该段CDS的起始位置为23519,直接用该坐标检索出来的序列为
    直接检索出的CDS

    很显然,该序列少了个A碱基。

gtf或gff文件可以直接用bedtools getfasta提取启动子

  • 将gtf重命名为gff格式,然后直接提取
  • -s参数会参考正负链信息,正义链就提取正义链的序列,反义链就提取反义链的序列。.gff文件中正负链的信息在第七列$7
  • -name+ 会把.gff文件第三列的信息也写在输出序列fasta的header信息中。.gff文件中的信息一般是gene、mRNA、exon、CDS等这类信息,其实可以用Gene ID或Gene Symbol替代这一列,使生成的序列信息更明了。
bedtools getfasta -fi genome.fa -bed tmp.gff -s -name+ -fullHeader -fo tmp.fa
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容