因为小编之前做过一段时间的SV分析,所以想在此分享一下做SV分析的过程。
今天先介绍如何下载物种的contig数据?这是SV分析的第一步。
这里我用Chimpanzee作为例子进行介绍,嘻嘻!
首先我们需要从NCBI的AssemblyDatabase搜索物种信息,chimp的网址是:
https://www.ncbi.nlm.nih.gov/assembly/GCF_002880755.1
如下图所示,我们再此可以知道物种的WGS project ID是 NBAG03,点击进入。
进入到新页面以后,你会看见网页底部有WGS ***,如下图所示,点击WGS。
点击之后,你会进到数据库Sequence Set Browser Database,如下图所示。该界面会介绍该版本基因组的相关信息,比如ID,物种名等。
https://www.ncbi.nlm.nih.gov/Traces/wgs/NBAG03?display=contigs
点进去以后,你会看到download标志,如下图所示,至此,可下载所有的contig fasta文件。如果在服务器上,可使用wget+website进行下载,如果在本地电脑,可以直接点击链接下载。
下载完毕后,你需要合并所有的contig数据到一个contig文件中,用于后续分析。记得要给fasta文件建立索引哦,可以使用samtools faidx – indexes or queries regions from a fasta file建立索引,完整的介绍见网址:http://www.htslib.org/
综上,介绍了做SV分析的第一步,如何下载contig数据。