写在前面:
最近要将参考基因组(4.1G,粗山羊草)的每一条染色体单独提取出来,之前我写过一个使用faSomeRecords的帖子基因组学5-利用faSomeRecords根据基因ID提取基因序列 - 简书,本想使用那种方法进行染色体的提取,然而发现了一些问题,推测可能是参考基因组太大,超过了该软件的限制。报错如下:
$:faSomeRecords ae.tauschii.genome.fa ae.tauschii.chr1.txt test
Line too long (more than 536870912 chars) line 4 of ae.tauschii.genome.fa
正文:
为了解决这个问题,想到了使用fastacmd,关于该软件的详细用法,官网如下http://nebc.nox.ac.uk/bioinformatics/docs/fastacmd.html,有兴趣的可以仔细看看!
安装步骤在此不再叙述,可以使用自己编译,也可以从conda下载。
然而该软件的使用首先需要对参考基因组进行blast建库。
makeblastdb -in ref.fasta -dbtype nucl -out ref.database -parse_seqids
建库成功后,将会得到如下几个文件。
然后可以调用该软件,使用以下命令
fastacmd -d ae.tauschii.genome -i chr1d.txt -o chr1d.genome.fa
chr1d.txt文件内容只有一行,就是chr1D,记住不要加>号!
周后就可以得到chr1D的基因组序列了!
后记:
最近好几个朋友问我还在更新帖子不,其实中间因为课题比较忙,断更了快2个月。后来想了想,时间紧的话,就在帖子里少叙述一些,时间充足就多写一些,写得详细一些。但一定要保持下去。
也很感谢每一位读者对我的鼓励和支持,这也是我不断写下去的动力!