准备文件:
——萝卜蛋白序列(你自身研究物种的蛋白序列);rs.tree,它是Clustal OmeGA跑出来的;特定gff文件,格式为第一列是染色体,第二列基因ID,第三列起始位置,第四列终止位置。提取这个特定的gff命令如下:
#提取gff:grep '\sgene\s' Rs_1.0.Gene.LFY.gff | awk '{print $1"\t"$4"\t"$5"\t"$9}' | awk -F 'ID=' '{print $1$2}' | awk -F 'Parent=' '{print $1}'|awk '{print $1"\t"$4"\t"$2"\t"$3}' > rs.gff
条件:
安装MCScanX,并且下面所得文件放在MCScanX下运行
如何安装:
#anaconda search -t conda MCScanX
#anaconda show bioconda/MCScanX
#conda install --channel https://conda.anaconda.org/bioconda MCScanX
#建库:makeblastdb -in Rs_1.0.peptide.fa -dbtype prot -out rs
#比对:blastp -query Rs_1.0.peptide.fa -db rs -out rs.blast -evalue 1e-10 -num_threads 16 -outfmt 6 -num_alignments 5
#运行:./MCScanX rs
1.运行之后得到
rs.tandem;rs.collinearity;rs.html
2.在downstream中分析
和树的同线性:
#java family_tree_plotter -t rs.tree -s rs.collinearity -o RsMATE_tree.png
和树的同线性+随机复制:
#java family_tree_plotter -t rs.tree -s rs.collinearity -d rs.tandem -o RsMATE_tree_1.png
圆形同线性:
circle.ctl改为你自己的染色体号,family.txt也改为你自己的基因ID(在跑出来的文件中修改,尽量不要自己做)
#java family_circle_plotter -g rs.gff -s rs.collinearity -c circle.ctl -f MATE_family.txt -o MATE_cir.png
片段复制的基因对:
#perl detect_collinearity_within_gene_families.pl -i MATE_family.txt -d rs.collinearity -o MATE_segmental
KaKs分析:
准备好自己基因家族的cds序列,如果报错把基因ID后缀那一串去掉试试,如果还是不行,就放物种的全部cds序列
#perl add_ka_and_ks_to_collinearity.pl -i rs.collinearity -d Rs_cds.fa -o MATEkaks
其他的下游分析自己试试