转录因子分析的流程
一、从转录因子数据库下载大麦转录因子CDS序列
PlantTFDB - Plant Transcription Factor Database @ CBI, PKU (gao-lab.org)
从上面网站中的downlode下载大麦转录因子CDS序列
该版本对应的大麦基因名是很早,2016版本的大麦基因名,需要将该基因名字转换成MorexV2版本的名字,也就是2019年版本的基因名字。
二、基因对应修改
利用Galaxy (ipk-gatersleben.de)网站进行在线的大麦基因blast转换,结果展示悬着text格式
我们需要筛选该列包含Querty= 或 HORVU的行,然后进行按照| 和空格进行分列,最终的格式整理成下图格式
目标格式是
用下边的代码进行实现
输入数据的格式是
就是添加一个数值对应的列,逻辑是将MLOC对应的行先找出来后,然后利用两个MLOC对应的数值的差值来确定MLOC值的重复,最后利用确定好的重复新添加一列
###blast基因名称修改
choose.files()
setwd("D:\\mywork\\mywork\\10.大麦转录组\\2022年大麦分析\\8.大麦转录因子\\修改文件格式\\")
bla_data <- read.table("name对应关系.txt",header = T,sep="\t")
head(bla_data)
###将MO编码的大麦名称找到
MO_data <- subset(bla_data,grepl("MLOC",bla_data$name))
head(MO_data)
M <- data.frame()
for (i in 1:length(MO_data$name)){
j = as.numeric(MO_data[i,2])
l = as.numeric(MO_data[i+1,2])
data <- bla_data[j:(l-1),]
data$name2 <- rep(MO_data[i,1],times=(l-j))
M <- rbind(M,data)
}
##只有最后一个没有加上,自己在excel加上即可。
write.csv(M,"gene_name_MOX_V1_MOX_v2_FT.csv")
上面会有一个问题,就是最后一个i取值时,j没有值可以取,最终结果输入后手动的添加最后的一个MLOC对应关系即可。
三、最终结果
添加基因的注释信息,确认其blast中的Evalue值,最终整理的结果如下
四、关于转录因子后续分析
由于自己的试验设计也是大麦全生育期的发育过程的一个转录组数据,后续的分析需要参考一些转录因子跟生育期相关的文献进行分析。等看完一些文献后再着手分析整理,这个地方先空着吧!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
这个网站真的解决我很大的问题,而且物种也很多。