笔记
基因家族
同一个祖先基因经过变异,产生了结构、功能相似的各种表达蛋白,表达这些蛋白的基因统归为一个基因家族。
超基因家族
同一个祖先基因经过变异,产生了结构相似、功能不同的各种表达蛋白,表达这些蛋白的基因统归为一个基因超家族。
domain
一个基因转录的蛋白质分子中可以包含多个结构特异并且功能不同的区域,这些区域称之为domain,domain 可以看作蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定,研究domain, 可以更好的研究蛋白质功能,而具有相同结构域的基因往往形成一个基因家族。
流程
下载基因家族模型
在PFAM中下载
在文献中找到pfam ID :PF02519 (睡莲)
已获取HMM文件
下载hmmer
Linux可以在官网下载
windows下载网址:http://hmmer.janelia.org/static/binaries/hmmer3.0_windows.zip
(直接打开会404,用迅雷打开就可以了)
下载后解压即可使用。
使用hmmer
在桌面按windows+R,输入CMD,进入窗口后,输入“D:”,进入hmmer所在文件夹。
hmmbuild 要输出的文件名(.hmm)+sto文件(相对路径)
(不小心命名错了T T)
alen表示比对氨基酸一共465个,mlen表示最大比对上218个氨基酸,eff_nseq表示比对效率0.96存在15.58个gap,re/pos表示每个位置的相对熵0.590
随便打开看看(ASCII码文件)
cat 02319.hmm
hmmsearch搜索序列数据库
需要一个蛋白质数据文件,是fasta格式,uniprot sprot.fasta
在uniprot中搜Nymphaeales找家族蛋白质数据
(尝试在文献中找,但是那个网址下载一直失败。就自己搜搜看了)
文件下载好后,输入
hmmsearch 02319.hmm uniprot-Nymphaeales.fasta > 02519.out
02319.hmm是上一步输出的文件,.fasta文件是下载好的蛋白质文件,02519.out是输出文件。
文件内容
比对到的含有domain的序列,按E值来排序,从小到大
- 第一列的E-vaule是最终要的一个参数,越小越有可能是同源的序列
- 第二列的score也可以用来评估可能性,而且不依赖于比对数据库的大小,只依赖HMM文件和目标序列
- 第三列bias是score的偏差,比如score是222.7,那么原始值就是加上3.2,等于225.9,但是这个数值一般不重要,可以忽略不看。
后面的3列也是一样的参数,只是对于best 1 domain而言,前三列是对于full sequence而言。最后的#dom内容是有多少个domain,exp是均值,可以是小数,而N是真正的整数个数。
教程参考https://cloud.tencent.com/developer/article/1424604
clustalx的使用
下载clustalx(Windows)/clustaw(Linux)
下载网址http://www.clustal.org/download/current/
安装后
在kegg找同源但不同物种的基因序列。我找的是拟南芥(Arabidopsis thaliana (thale cress))的光系統II蛋白D1基因(NCBI-GeneID: 844802)和亚麻(Camelina sativa (false flax))的光系統II蛋白D1基因。
在NCBI中,拟南芥叶绿体的psbA基因序列
其他同理可得
第一步:输入序列文件,选择.fasta文件
选择第二个比对文件,也是.fasta文件
第二步,选择多重比对参数
第三步,选择好后,进行多重比对
对输出的.dnd和.aln文件选择输出位置及文件命名
.aln是序列比对的文件,可以进一步用于构建系统发育树,.dnd是向导树文件(指导树)。
第四步,比对完成,选择输出结果文件的格式
比对结果如下
MAFFT的使用
这是另一个比对软件
序列过滤
序列比对杂乱的序列认为其是噪音,需进行过滤。
trimAL
下载:
conda install trimal
用conda安装,要首先安装了conda才能装trimal。
-gappyout 过滤掉gap-rich的部分
建树
选择模型
jModelTest 用于找DNA建树模型,ProtTest用于找蛋白质建树模型。
也可以用iqTree软件建树,里面带有ModelFinder,可以自动帮你找模型。
iqtree -s turtle.fa -m MF -pre turtle.MF -mset JC,GTR #-s 输入多重序列比对序列 -m 确定模型(如有),如果没有就输入MF modelfiner -pre 输出文件前缀 -mset 限定搜索范围
I 不变的
G4 γ分布
PartitionFinder
不仅找每个基因的模型,而且把进化模型相似的分为一个组,以一整个区块拿来分析。
下载MEGA
下载网址http://www.drv5.cn/sfinfo/15726.html
安装后打开。
第一步,将6条序列合并到同一个.fasta文件中。
第二步,打开MEGA,按下图操作后选择含有所有序列的.fasta文件。
按shift可多选序列
第三步,选择对齐方式,ClustalW适用于基因序列,MUSCLE适用于蛋白质序列。
对齐后保存为.meg格式,用于后续建树。
.mas格式保不保存都无所谓,但顺手保存了。
第四步,关闭窗口后,回到原来MEGA窗口。点击phylogeny
弹出“是否使用刚刚生成的.meg?”,点击“是”,如不会调参数可以使用默认参数,即可生成进化树。在弹出窗口“Tree Explorer”中可以对进化树进行美化、调整等。还可以用word进一步编辑该进化树。