此视频来自B站,是非常好和全的的一个GWAS操作的视频,从开始准备软件下载,数据过滤,到最后的候选基因注释。
GWAS的实战视频
https://www.bilibili.com/video/BV1f44y1t7Jk?from=search&seid=12908459299918140554&spm_id_from=333.337.0.0
LD
流程:
怎么安装软件:
VCF格式1:不需要填充:
VCF格式2(原始):需要处理:
首先基因型填充
填充后(PLNIK):
admixture: k = 1-13
根据VC,选取使用P文件
TASSEL:亲缘关系:
hapmap格式文件:
以下都为:TASSEL
VCF转为hapmap:
GLM使用时,要去除群体结构文件中的最后一列,需要保证三列和小于1.表型文件并且admiture的文件,在表型最前面加如covriances。
MLM加入亲缘关系:
表型数据中为单个表型:两列
安装R包
普通曼哈顿图:
CMplot:
RColorBrewer包调控颜色:
筛选显著值:第二:峰中的其他位点是受最大的影响,所以进行clump清理,根据LD值处理。
染色体注释
上下100kb进行注释。
准备基因位置文件:
基因功能注释文件:
输入文件:
使用perl进行注释:
先基因定位:
再对基因进行功能注释:
有重复的需要删除。
对结果再行筛选
Camoco预测候选基因。安装软件
构建数据库
Camoco的文章:
建立参考基因组:
GFF文件格式:
需要将csv格式,使用最后代码将数据分开。
根系文件:
GO
计算:
test.txt
再进行GO富集分析,网站直接进行。
区段关联分析
PLINK(文件格式转换)和TASSEL(关联分析)进行(windows版本)。
VCF(基因文件)改为ped,map
首先确定基因的目标区段:annotation文件:
从基因里查出内部及上下游50k的所得SNP
导入基因型:
关联分析:数据筛选
数据整合:
关联分析:
LD 分析:
根据TASSEL根据选出的SNP再次进行MLM分析,得到结果后,再次进行LD分析,
将基因型和关联分析结果导出。再使用R进行画图:
关联结果只需要marker,POS,P值,三列。
需要报: LDheatmap, genetics包,读数据:记得加as.is=T
p值转为-log10()
候选基因还是很多(GWAS步骤),可以构架一个WGCNA调控网络
基本概念:
主要数据:
基本流程:输入数据
基因表达矩阵:
性状矩阵(必须为数值型数据)