bedtools获得基因组指定范围的序列

·# getfasta

bedtools getfasta extracts sequences from a FASTA file for each of the intervals defined in a BED/GFF/VCF file.

用法

 bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>

-fi 基因组文件
-bed bed,gff,vcf格式文件

我只测试了bed格式文件。最基本的bed文件需要3列
染色体名字 序列开始位置 序列结束位置

$ cat test.bed
chr1 5 10

$ bedtools getfasta -fi test.fa -bed test.bed
>chr1:5-10
AAACC

# optionally write to an output file
$ bedtools getfasta -fi test.fa -bed test.bed -fo test.fa.out

$ cat test.fa.out
>chr1:5-10
AAACC

这是最基本的用法。

2,正负链问题
网上说参考基因组是正链。bedtools最基本的用法不用提供正负链信息。其实默认的就是截取基因组的区间序列,既然参考基因组是正链,那么默认截取的就是正链序列。如果bed文件有正负链信息,负链的序列就是软件默认情况下截取的序列的反向互补序列。实际我验证后,结果也确实如此。

bedtools有个-s参数,开启后会区分正负链信息。

如果有正负链信息,在bed中标注好。但是无论你标注+-与否,其实基因组的区间信息是一样的。

bedtools官网参考资料:
这软件的文档真良心之作。有图有例子。
https://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容