如何使用SPDE进行基因家族分析---序列的获取以及比对

看同学们挣扎在拿奖学金、毕业和升学的路上而苦于没有文章是时候给大家解决一下这个问题了。首先，我们需要解决的是序列的问题。我本身是做植物研究的，对植物较为了解，这几个基因组网站很不错，可以考虑从其中下载相应序列：Phytozome (doe.gov)，FTP Download (ensembl.org)，https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/。

对phytozome（注意不同的人上传的数据，关于文件命名可能会稍微有点差别）:

第一步：选择相应物种

打开类似界面选择下载

基因组序列文件

打开后是这样的：

基因组序列文件（用于提取启动子等序列）

gff文件（用于提取启动子等序列）

蛋白序列文件（用于比对及家族成员的确定）

cds文件（用于比对）

基本上用到的也就是上面这些了

对ensemblplants也就是上述的第二个网址：

对NCBI网站：

找到物种名点击

一路点下去。。。

把这些需要的都下载好。。。

首先，我们需要确定的是家族成员有哪些，用到了蛋白文件（有些地方我会直接拷贝一个序列作为例子，同学们可以直接用这个序列到相应网站进行尝试）以及pfam号：

蛋白文件不再赘述，关于pfam号，有两种基本的获取方式：

1、根据文献查找。假设我们要找的ARF（auxin response factor）家族：

直接到这个网站谷粉学术 (99lb.net)，输入家族全称：auxin response factor

可以点击左侧的since 2017查找近几年的家族分析文章

像这种：

点进去

在方法部分有pfam号

复制这些号（注意，pfam号是根据蛋白结构域命名的而一个基因的蛋白序列中可能有多个结构域，但有些家族的一些成员并不一定具有全部的结构域，这要根据你要研究的家族的特点来判断哪些是必须的，哪些是可缺少的！）到pfam官网（Pfam: Home page (xfam.org)）查找：

点击下载这个文件

第二种是利用NCBI进行查找，需要的是已经确定的、你要研究的这个家族成员的蛋白序列：

>ARF19.1

MSASKQAAAAESSILPDPQPAQEAKKTINPQLWQACAGPLVNLPIPGTHVVYFPQGHTEQVAASLKKDVDAQIPNYSNLPPKLICLLHSVTLLANPDTDEVYAQMVLQPVSTIDKEALIRSDLSLKSNKPHTDFFCKTLTASDTSTHGGFSVPRRAAEKIFPPLDFSMQPPAQELVAKDLHDNVWTFRHIYRGQPKRHLLTTGWSLFVSGKRLVAGDSVLFIRDEKQQLLLGIRRANRQPPNMSSSVLSSDSMHIGVLEAAANAATNNSIFTVFYNPRTSPSEFVIPLAKYYKAVNSYQISLGMRFRMMFETEESGTRRYIGTITGISDVDPIKWKNSQWRNIQVGWDEANTGEKCHRVSLWDIELVTSPFYICPPLISSKRSRHIGMPDEDSSEMDSLFKRMMPWLHDDVFLTDSQSFPGMNFAQWINMPQNPLLNHSLQSAYVQSGSGPVLASLAEAGPSQHYGLITSQFPQSNPPCGLQTPQQQLDQLTKVPTLNPCSTSHEQTPNLTQQSQNLVNRLLPPSHYVQPQNIFQNQFAPLNGQAQGNIPHFSNQQQLPPTLHNLGQITDRGNQQISSNQIQLQMMQRYQQQEQSLHFQQSIGHNVGQMESFQDQQKLVADMARNIHIPASVPQAVEMPQETITASTYPCIVKLPQQQHNVNDTVHSNGYVSSATQQLRSLQQPFAALIPELQFPMGFHGSSINQISGNGRIELSEVPEVGQSLSTTGLPSCSTSKLNDKLISAAKSMKGVMPNGCMQNSEAVNSSAFPLSGPGVIDSASSSNSLVRCSDNNSALMTSSFTEKNKNIAVLDNPMVNSIQSSQMSYLGTPYLSTSVCQPQNIANVQQSLNAAYFGFQPIMEQGGAGIVDARNSVSFETNAGQNSVPLNHDPLLSQDIGCLRKSKSPSEDILNDFEYSKDPQPERSSIVSQSYGVPDMTFNSIESTLSDSSFMAKPPFVPPPQQYQRMRTYTKVYKRGAVGRSIDVTSYSGYDDLKQDLARRFGIEGQLEDRHKVGWKLVYVDHENDVLLVGDDPWEEFVSCVRSIKILSPQEVQKMSQDGDVSNSLLLNQACSSSDGGNV

打开NCBI网站Protein BLAST: search protein databases using a protein query (nih.gov)（注意要输入fasta格式：如上大于号开头，然后隔一行下面都是序列的，这种就是fasta格式）：