基因家族分析(7)种内共线性分析及circos绘图

MCscanX 软件用来做植物基因的共线性分析, 也可以做复制基因的分类分析,查看基因家族成员是否由 segmental 复制产生。

准备MCscanX 输入文件

输入文件准备:蛋白质序列文件和 gff3 文件, 均保留最长转录本。

#blasp比对鉴定物种内部蛋白的同源性

##构建blast数据库
makeblastdb -in Ft.pep.fasta -dbtype prot

## blast比对
blastp -query  Ft.pep.fasta  \ #输入文件
-db  Ft.pep.fasta  \ #指定的数据库
-evalue 1e-10 \ #设置阈值
-max_target_seqs 5 \ #保留前五个比对结果
-outfmt 6 -out Ft.blast

## 过滤gff3文件
awk '$3=="mRNA"' Ft_final.gff3 | awk -F ";" '{print $1}'|awk '{print $1"\t"$9"\t"$4"\t"$5}'|sed 's/ID=//' > Ft.gff
过滤后的gff3文件

第一列是染色体名称,第二列是基因的id,第三列是基因的起始和结束位置
然后我们用MCScanX做基因复制模式分析

种内基因复制模式分析

/home/software/MCScanX/duplicate_gene_classifier \ #你的软件安装的位置
 ./Ft \ #输入文件的前缀
 > Ft.log #输出文件

生成结果文件为 Ft.gene_type
输出结果为 2 列,第一列为基因 ID,第二列为分类数字,具体说明如下:


Ft.gene_type

数字代表不同的分类


Ft.log

种内共线性分析

准备文件:过滤后的gff文件和blast文件(Ft.gff,Ft.blast)

# 种内共线性分析
/home/software/MCScanX/MCScanX \ #软件安装位置
./Ft #输入文件的前缀

生成文件 Ft.collinearity,格式如下:

Ft.collinearity

circos 作图

将共线性分析结果做 circos 图,并标记基因家族成员位置和共线性情况。

数据准备

  1. 基因组 fasta 文件
  2. 共线性结果文件
  3. 共线性分析的 Ft.gff
  4. 基因家族成员 ID 列表文件
# 计算染色体长度
seqkit fx2tab -l -n -i Ft.genome.fasta |grep  "^Ft" |awk '{print $1"\t"$2}' > genome.len

# 生成染色体文件 7列
awk '{print "chr\t-\t"$1"\t"$1"\t0\t"$2"\tchr"NR}' genome.len > Ft.karyotype.circos.txt

# 生成circos作图数据文件
perl ./mcscanx_circos.pl  \ #脚本文件
Ft.gff  \ #输入mcscanx的GFF文件
Ft.collinearity  \ #输入mcscanx共线性结果
Ft.geneID  \ #输入基因家族成员ID
Ft.circos  #输出结果

生成的文件,circos使用
links文件:Ft.circos.geneBlocklinks.txt
基因ID文件:Ft.circos.geneText.txt
links文件:Ft.circos.links.txt
记录共线性基因家族成员:Ft.circos.genepair.txt

核型信息文件

Ft.karyotype.circos.txt 定义染色体长度和颜色等


Ft.karyotype.circos.txt

第一列:为 chr
第二列:- 占位
第三列:染色体 ID
第四列:显示在图中的名称
第五列:起始位点,0
第六列:终止位点,染色体长度
第七列:颜色

详 细 说 明 参 考:http://circos.ca/documentation/tutorials/ideograms/karyotypes/

文本信息文件

Ft.circos.geneText.txt 在图上需要标注的基因名称
第一列:染色体
第二列:起始位置
第三列:结束位置
第四列:基因id


Ft.circos.geneText.txt

染色体连接关系文件

一般做共线性图,可以画成线状或者带状
Ft.circos.geneBlocklinks.txt 和 Ft.circos.links.txt 二者格式一样


Ft.circos.links.txt

1-3 列和 4-6 列是需要连接的基因组位置信息

circos配置文件

ideogram.conf

染色体图形配置文件

<ideogram>

#设定染色体间的空隙大小
<spacing>
default = 0.01r #设置图中染色体之间的空隙大小
</spacing>

radius = 0.5r #设定ideograms的位置,以下设定ideograms在离圆心的90%处
thickness = 40p #设定 ideograms 的厚度为40p
fill = yes #设定ideograms是否填充颜色。
stroke_color = dgrey #设置轮廓颜色
stroke_thickness = 1p #设置轮廓厚度
show_label = yes #设定是否显示label, 对应着karyotype文件的第4列。
label_radius = 1r - 40p #设定 label 的位置
label_font = default #设置字体
label_size = 40p #设定label的字体大小
label_parallel = yes #设定label的文字方向,yes表示平行于染色体。

</ideogram>

ticks.conf

刻度配置信息

<ticks>

radius = 1r #设定 ticks 的位置
color = black # 设定 ticks 的颜色
thickness = 2p # 设定 ticks 的厚度

# 设定ticks label的值的计算。
# 得到圈图上的label 值。
multiplier = 1e-6
orientation = out # 设定ticks向外还是向内 可以设置值为 out 和 in

# label值的格式化方式。%d 表示结果为整数;%f 结果为浮点数;
# %.1f 结果为小数点后保留1位.
format = %d

<tick>
spacing = 10u # 设置每个刻度代表的长度。
size = 15p # 设置 tick 的长度
show_label = yes #设置展示 ticks label。
label_size = 10p #设置 ticks label 的字体大小
label_offset = 5p #设置 ticks label 离 ticks 的距离
format = %d
</tick>

</ticks>

circos.conf

主配置文件,绘制一圈基因 ID,内部 links 部分包括 2 组数据, 一组是全基因组水平共线性,一组是家族基因共线性。

karyotype = Ft.karyotype.circos.txt #指定染色体文件
chromosomes_units = 1000000 #设置长度单位,表示为1M长度的序列代表为1u
chromosomes_display_default = yes #默认是将所有的染色体都展示出来

##载入ideogram配置和刻度线配置
<<include ideogram.conf>>

show_ticks = yes # 显示刻度
show_tick_labels = yes # 显示刻度label
<<include ticks.conf>>

## plots block 绘制折线图、散点图、直方图、热图和文本显示
<plots>
##显示文本
<plot>
type = text #设置绘图类型为文本
file = Ft.circos.geneText.txt # 数据文件路径
color = red #文字颜色
# 显示在图形中的位置
r1 = 1.8r
r0 = 1r
label_font = default # 标签的字体
label_size = 20p # 标签大小
label_snuggle = yes # 避免文字重叠
# 设置是否需要在 label 前加一条线,用来指出 lable 的位置。
show_links = yes
link_dims = 5p,4p,40p,2p,2p
link_thickness = 2p
link_color = green
</plot>
</plots>
#links画连接线
file = Ft.circos.links.txt

# link文件,基因家族成员共线性连接
file = Ft.circos.geneBlocklinks.txt


#以下部分通常不做修改
#设置图片参数
<image>
<<include etc/image.conf>>
#覆盖原来的图片半径参数
#radius* = 500
</image>
#设置颜色,字体,填充模式的配置信息:
<<include etc/colors_fonts_patterns.conf>>
#系统与debug参数:
<<include etc/housekeeping.conf>>

画图

#circos作图
circos -conf circos.conf
#自动识别当前目录下的配置文件

欢迎关注Bioinfor 生信云微信公众号

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容