基因家族流程:基因家族分析(一)
基因家族流程:基因家族分析(二)
基因家族流程:基因家族分析(三)
====================================================================================================================================
多序列比对和进化树分析(Multiple sequences aligment and phylogenetic analysis)(有时间更新)
1.多序列比对分析
(1)DNAMAN(目前最新version10)
- 下载地址:DNAMAN http://www.lynnon.com/dnaman.html
- 使用:Sequence-Align Multiple-File(All files)-protein-使用默认参数到最后一步
(2)ClustalW2&ClustalX2 (ClustalX2命令行版本)
- 下载地址: http://www.clustal.org/
- 使用: File- Load Sequence-Alignment- Alignment Parameters-Multiple Alignment Parameters- Alignment菜单,选择Output Format Options-击Aliglnment菜单,选择Do Complete Alignment.
(3)命令行:
- musle
- clustalw
- mattf
2.进化树分析
- MEGA网址:https://www.megasoftware.net/ #填简单信息下载
- 目前最新版到MEGAX(支持codon aliginment),7以上只提供64位。
- 使用:File-Align-Alignment-Align By Muscle-Export Alignment-MEGA Format -Phylogeny-Construct/Test Neighbor-Joining Tree.
- 注意:
(1) 多序列比对:Muscle or clustalw
(2) Model选择.分别针对蛋白序列和核酸序列的模型选择程序
(3) 算法选择。三种: NJ, ML and BI. 文献中一般都是NJ(bootstrap1000)进化树。一般ML(超级慢)树比较准确,但应结合方法,如NJ树,相互验证。
意义:
a.聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分为MEKK,Raf和ZIK三个亚家族。
b.亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近。
c.基因家族复制分析。研究基因家族复制事件(duplication events):两种复制事件类型(tandem duplication and segmental dulication)
3.其他建树软件
phyML
Mrbayes
...
4进化树修饰
MEGA:view->options and subtree-> draw options.
AI美化,可以添加任何元素。(强烈推荐)
iTOL美化:可成以下效果,但是树形较MEGA会变化,不推荐。
iTOL: Interactive Tree Of Life: http://itol2.embl.de/
iTOL: Upload a new tree:http://itol.embl.de/upload.cgi
文件准备:
从MEGA导出的nwk树文件,上传到iTOL,修改option
color ranges(基因背景色)
Datssets—color strip (即外围条带)
4)FigTree v1.4.3 http://tree.bio.ed.ac.uk/software/figtree/
绘制基因的染色体位置图(Chromosomal Location)
1.准备文件
基因id
基因组的注释文件
基因组染色体的长度
在线绘制工具:MapGene2Chrom:http://mg2c.iask.in/mg2c_v2.0/
2.获取染色体长度
- samtools和awk提取所有染色体长度
Athaliana_167_TAIR9.fa.fai文件中前两列为染色体名字和长度文件
pengzw@super-server:~$ samtools faidx Athaliana_167_TAIR9.fa
pengzw@super-server:~$ awk '{print $1"\t"$2}' Athaliana_167_TAIR9.fa.fai >chr_length.txt
pengzw@super-server:~$ cat chr_length.txt #查看genome.fa.fai 文件,前两列为染色体位置和长度
Chr1 30427671
Chr2 19698289
Chr3 23459830
Chr4 18585056
Chr5 26975502
ChrM 366924
ChrC 154478
3.获取基因位置
awk初步提取位置和其他信息(可适当添加)
pengzw@super-server:~/reference/At$ awk -F "[= \t]" '$3 == "gene" {print$11"\t"$4"\t"$5}' Athaliana_167_TAIR10.gene.gff3|head -n 5
AT1G01010 3631 5899
AT1G01020 5928 8737
AT1G01030 11649 13714
AT1G01040 23146 31227
AT1G01050 31170 33153
awk对两个文件处理:按照名字筛选
awk 'NR==FNR{a[\$1]}NR!=FNR{if (\$1 in a) print $0}' id id.all > out
命令解释:NR==FNR和ARGIND==1和FILENAME=ARGV[1]表示第一个文件,NR!=FNR和NR>FNR以及ARGIND==1和FILENAME=ARGV[2]都表示第二个文件
pengzw@super-server:~/reference/phytozome/at$ cat id
AT1G01010
AT1G01020
pengzw@super-server:~/reference/phytozome/at$ cat id.all
AT1G01010 3631 5899
AT1G01020 5928 8737
AT1G01030 11649 13714
AT1G01040 23146 31227
AT1G01050 31170 33153
pengzw@super-server:~/reference/phytozome/at$ awk 'NR==FNR{a[$1]}NR!=FNR{if ($1 in a) print $0}' id id.all > out
pengzw@super-server:~/reference/phytozome/at$ cat out
AT1G01010 3631 5899
AT1G01020 5928 8737
4.绘制工具:
1)在线绘制工具:MapGene2Chrom:http://mg2c.iask.in/mg2c_v2.0/(推荐)
2)Mapchart&Mapdraw(没试过,文献中出现)
3)MapInspect (超级烦琐坑爹,出图效果还不好,不更新了还)