最近投文章,审稿人问了一个关于系统进化树的问题。
Reviewer: 1
I still don't understand, why authors sequence 486 isolates but only use a tiny fraction (20) for the phylogenetic tree. Clearly 20 strains out of 486 is not a representative group. Why haven't all isolates been used? Also, I am missing an appropriate substitution model. If authors are unfamiliar with phylogenetic analyses: jmodel test, would for instance be an option.
我分离了486个可培养菌并测了每个菌的16s rRNA基因,其中有很多菌的16s是非常相似的。最初我是在EzBioCloud (www.ezbiocloud.net)直接提交16s序列鉴定,该数据均是可培养菌模式菌株的16s序列。然后我就将这486鉴定归类为20种菌种,拿着20种菌种的16s序列在MEGA中构建了系统进化树。审稿回来,reviewer就提出了上述问题,要求486个分离株的16s序列构建进化树,并且需要寻找最佳模型,推荐了jmodel test软件。
大致过程如下
1. 待建序列:NCBI上下载的63个16s参比序列和486个分离株的序列,共549个。
2. 使用jmodel进行了模型选择,88种模型可供选择。在i7 6700,8G的台式机上跑了7个多小时,计算完后统计AIC和BIC的时候卡死了,跑了两遍都这样,不知道怎么回事,最后放弃使用这个软件了。
3. 使用IQ-TREE进行模型选择和ML建树,288种模型可供选择。在i5 2450M,8G笔记本的VMware虚拟机(2个线程,4G内存)上执行。
#使用MUSCLE对549个序列对齐
conda install muscle
muscle -in 16s.fas -out 16s_muscle.fas
#使用BMGE对序列剪齐
conda install bmge
java -jar BMGE.jar -i 16s_muscle.fas' -t DNA -of 16s_muscle_trim.fas -m DNAPAM250:4 –g 0.5
#使用ModelFinder寻找最优模型
conda install iqtree
iqtree -s 16s_muscle_trim.fas -m MF -nt 2
得到最佳模型TIM3+F+R4
#使用UFBoot2建树
iqtree -s 16s_muscle_trim.fas -m TIM3+F+R4 -bb 1000 -nt AUTO
4. Figtree可视化树文件16s_muscle_trim.contree
16s_muscle_trim.contree: the consensus tree with assigned branch supports where
branch lengths are optimized on the original alignment.