看同学们挣扎在拿奖学金、毕业和升学的路上而苦于没有文章是时候给大家解决一下这个问题了。首先,我们需要解决的是序列的问题。我本身是做植物研究的,对植物较为了解,这几个基因组网站很不错,可以考虑从其中下载相应序列:Phytozome (doe.gov),FTP Download (ensembl.org),https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/。
对phytozome(注意不同的人上传的数据,关于文件命名可能会稍微有点差别):
打开后是这样的:
基本上用到的也就是上面这些了
对ensemblplants也就是上述的第二个网址:
对NCBI网站:
一路点下去。。。
把这些需要的都下载好。。。
首先,我们需要确定的是家族成员有哪些,用到了蛋白文件(有些地方我会直接拷贝一个序列作为例子,同学们可以直接用这个序列到相应网站进行尝试)以及pfam号 :
蛋白文件不再赘述,关于pfam号,有两种基本的获取方式:
1、根据文献查找。假设我们要找的ARF(auxin response factor)家族:
直接到这个网站谷粉学术 (99lb.net),输入家族全称:auxin response factor
像这种:
复制这些号(注意,pfam号是根据蛋白结构域命名的而一个基因的蛋白序列中可能有多个结构域,但有些家族的一些成员并不一定具有全部的结构域,这要根据你要研究的家族的特点来判断哪些是必须的,哪些是可缺少的!)到pfam官网(Pfam: Home page (xfam.org))查找:
第二种是利用NCBI进行查找,需要的是已经确定的、你要研究的这个家族成员的蛋白序列:
>ARF19.1
MSASKQAAAAESSILPDPQPAQEAKKTINPQLWQACAGPLVNLPIPGTHVVYFPQGHTEQVAASLKKDVDAQIPNYSNLPPKLICLLHSVTLLANPDTDEVYAQMVLQPVSTIDKEALIRSDLSLKSNKPHTDFFCKTLTASDTSTHGGFSVPRRAAEKIFPPLDFSMQPPAQELVAKDLHDNVWTFRHIYRGQPKRHLLTTGWSLFVSGKRLVAGDSVLFIRDEKQQLLLGIRRANRQPPNMSSSVLSSDSMHIGVLEAAANAATNNSIFTVFYNPRTSPSEFVIPLAKYYKAVNSYQISLGMRFRMMFETEESGTRRYIGTITGISDVDPIKWKNSQWRNIQVGWDEANTGEKCHRVSLWDIELVTSPFYICPPLISSKRSRHIGMPDEDSSEMDSLFKRMMPWLHDDVFLTDSQSFPGMNFAQWINMPQNPLLNHSLQSAYVQSGSGPVLASLAEAGPSQHYGLITSQFPQSNPPCGLQTPQQQLDQLTKVPTLNPCSTSHEQTPNLTQQSQNLVNRLLPPSHYVQPQNIFQNQFAPLNGQAQGNIPHFSNQQQLPPTLHNLGQITDRGNQQISSNQIQLQMMQRYQQQEQSLHFQQSIGHNVGQMESFQDQQKLVADMARNIHIPASVPQAVEMPQETITASTYPCIVKLPQQQHNVNDTVHSNGYVSSATQQLRSLQQPFAALIPELQFPMGFHGSSINQISGNGRIELSEVPEVGQSLSTTGLPSCSTSKLNDKLISAAKSMKGVMPNGCMQNSEAVNSSAFPLSGPGVIDSASSSNSLVRCSDNNSALMTSSFTEKNKNIAVLDNPMVNSIQSSQMSYLGTPYLSTSVCQPQNIANVQQSLNAAYFGFQPIMEQGGAGIVDARNSVSFETNAGQNSVPLNHDPLLSQDIGCLRKSKSPSEDILNDFEYSKDPQPERSSIVSQSYGVPDMTFNSIESTLSDSSFMAKPPFVPPPQQYQRMRTYTKVYKRGAVGRSIDVTSYSGYDDLKQDLARRFGIEGQLEDRHKVGWKLVYVDHENDVLLVGDDPWEEFVSCVRSIKILSPQEVQKMSQDGDVSNSLLLNQACSSSDGGNV
打开NCBI网站Protein BLAST: search protein databases using a protein query (nih.gov)(注意要输入fasta格式:如上大于号开头,然后隔一行下面都是序列的,这种就是fasta格式):
这些准备文件都搞好了之后,打开SPDE:
ps. 我用的查看器是Visual Studio Code - Code Editing. Redefined。
打开excel(这其实真的是神器)
删除不需要的列,只保留具有ID的那一列:
这样:
打开蛋白文件,发现除了基因ID外还有其他一些信息(如红色框中显示):
这些信息需要去除,用SPDE的这个功能:
去除后变成这样:
提取相应家族成员序列:
使用的软件是megax:Home (megasoftware.net)
ctrl+A,全选:
比对后的结果:
这个过程与你序列的多少以及步数等都有关系,因此 ,这一步基本算是限速的步骤,建议同学们在进行建树后,就放在那儿,让它过夜跑就好,不过需要注意调整电脑的休眠模式:
结果是这样的:
保存即可
对进化树进行美化,可用itol:iTOL: Upload a new tree (embl.de)
在基因ID上单击右键,可对颜色等调整:
同样的方法也可以对枝条的颜色,粗细等进行调整:
完成后点击输出,并保存,建议同学们保存成svg格式,当然也有其他格式可以保存,同时也建议同学们可以使用PS或者AI等对树进行后续的加工