基因序列的多物种比对与进化分析是研究物种间遗传关系和功能保守性等的关键步骤。今天,我们将以T2R41
基因为例,手把手教大家如何下载基因序列、进行多序列比对,以及构建分子进化树。
1. 搜索基因并下载序列
首先,打开NCBI官网https://www.ncbi.nlm.nih.gov/,在搜索栏输入目标基因名称T2R41
。
[图片上传失败...(image-9fc25e-1734336014273)]
<figcaption>输入名称</figcaption>
进入搜索结果页面后,选择Gene
类型,可以看到该基因在13个物种中有记录。
[图片上传失败...(image-7681bc-1734336014273)]
<figcaption>寻找基因</figcaption>
在检索到的Gene
结果表格中,选择感兴趣的物种分别点击链接进行下载。
[图片上传失败...(image-47e59-1734336014273)]
<figcaption>选择物种</figcaption>
我们这里以human(人类)、mouse(小鼠)、monkey(猴子)为例,进入基因页面并点击右上角的Download Datasets
按钮,选择Gene Sequence (FASTA)
格式下载基因序列。建议将下载文件重命名为易识别的名称,方便后续整理。
[图片上传失败...(image-bf595-1734336014273)]
<figcaption>下载对应序列</figcaption>
下载得到序列后,我们分别将其解压到各自文件夹。
[图片上传失败...(image-36e5dc-1734336014273)]
<figcaption>下载后的文件</figcaption>
2. 整理序列数据
下载得到的压缩文件解压后,基因序列会存储在gene.fna
文件中,如下图。
[图片上传失败...(image-89aed9-1734336014273)]
<figcaption>单独文件中的内容</figcaption>
将各个物种的序列文件整理到一个总文件中,我们在此创建一个新的All.fa
文件.。打开记事本,将每个gene.fna
文件中的内容复制粘贴到All.fa
,并对>
后的描述信息进行简化,如下图:
[图片上传失败...(image-ce6283-1734336014273)]
<figcaption>整理后的fa文件</figcaption>
3. 多序列比对
我们打开MEGA软件,将刚刚整理好的All.fa
文件拖入软件。
[图片上传失败...(image-664543-1734336014273)]
<figcaption>打开MEGA软件</figcaption>
拖入后会询问是否是比对或对比对结果分析,因为我们这是原始数据,所以需要先选择Align
进行比对,点击后序列被自动导入比对窗口。
[图片上传失败...(image-2f0d3d-1734336014273)]
<figcaption>比对结果</figcaption>
目前展示的序列并没有被对齐,因此我们选择Alignment
菜单中的 Align by ClustalW
进行比对。
Tips: ClustalW和MUSCLE都是比对序列的算法,可以相互替换,都可以尝试。
[图片上传失败...(image-e6877c-1734336014273)]
<figcaption>Alignment菜单</figcaption>
点击后,会跳出窗口,选择OK
,全部序列进行比对。
[图片上传失败...(image-3a9dfe-1734336014273)]
<figcaption>全部比对</figcaption>
接着弹出参数设置对话框,参数默认即可。
[图片上传失败...(image-5b361e-1734336014273)]
<figcaption>默认比对参数</figcaption>
等待数秒后,接着我们会发现序列经过比对,已经被对齐。
[图片上传失败...(image-c5170b-1734336014273)]
<figcaption>image-20241207134329586</figcaption>
比对结果中,不同的背景颜色代表不同的碱基,最上方有*
号的代表这个位置的碱基在物种间保守。
在Data
菜单中,我们可以选择Export Alignment
中的MEGA Format
或FASTA Format
导出,如果后续分析仅计划在MEGA软件则导出第一种MEGA Format
,如果后续还打算导入结果到其他软件推荐FASTA Format
。
[图片上传失败...(image-a0f384-1734336014273)]
<figcaption>比对结果导出</figcaption>
4. 构建分子进化树
接着我们返回软件主页面,点击DATA
图标打开刚才生成的结果,导入刚才的结果。
[图片上传失败...(image-4a964f-1734336014273)]
<figcaption>进化树构建</figcaption>
[图片上传失败...(image-61ab23-1734336014273)]
<figcaption>导入数据后</figcaption>
接着选择PHYLOGENY > Constract/Test Neighbor-Joining Tree
,使用邻接法(NJ)构建进化树。 Tips:进化树构建有三种方法:若有合适的分子进化模型可供选择,则最大似然法获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。在这里我们选择邻接法进行展示。
[图片上传失败...(image-b4ae45-1734336014272)]
<figcaption>构建NG进化树</figcaption>
接着进入分析选项窗口,参数默认,选择OK
即可
[图片上传失败...(image-55c0e7-1734336014272)]
<figcaption>参数默认</figcaption>
接下来我们就得到了分子进化树,如下图,我们可以在左侧工具栏调整效果,如文字大小,进化树长度等设置。
[图片上传失败...(image-603fc3-1734336014272)]
<figcaption>进化树结果</figcaption>
[图片上传失败...(image-a9513b-1734336014272)]
<figcaption>MEGA可以展示circle图</figcaption>
图片美化好后,可以选择Image
菜单进行图片的导出。
[图片上传失败...(image-914dc0-1734336014272)]
<figcaption>图片保存</figcaption>
5. 导出nwk
文件
此外,可以将进化树导出nwk
文件,点击File
中的Export Current Tree(Newick)
导出结果,进一步在其它工具中进行美化,如iTOL等网站。
[图片上传失败...(image-710d58-1734336014272)]
<figcaption>nwk结果导出</figcaption>
Tips: nwk格式文件内容如下:
[图片上传失败...(image-3bc78d-1734336014272)]
<figcaption>nwk格式文件内容</figcaption>
总结
通过以上步骤,完成了基因多物种比对与分子进化树的构建。从序列下载到比对分析,再到进化树的生成与美化,这些步骤展示了DNA序列比对的基本流程。希望这篇教程能帮助大家快速上手DNA多序列比对及基因进化分析,探索更多基因奥秘!