网页方式easyGWAS
1、创建并登陆一个easyGWAS帐户;
2、一个物种和一个数据集,以及一个基因注释集(可选)。例如:选择物种拟南芥、数据集AtPolyDB(调用方法 75,Horton 等人)和基因注释集基因注释 (TAIR9);
3、选择一个表型,总共可以选择 5 种表型,在本教程中,我们通过键入名称来选择两种表型LD和LDV;
4、表型分布的直方图和 Shapiro-Wilk 检验的 p 值,Shapiro-Wilk 检验检验数据来自正态分布的原假设,Log10转换
5、可以在实验中添加协变量或主成分。但是,此步骤是可选的,在本教程中,我们通过单击“继续”来跳过它。
6、可以选择所有可用的 SNP 进行分析,也可以选择一组染色体;
7、必须选择要用于分析的算法和过滤器。首先,我们选择10% 的次要等位基因频率过滤器。接下来,我们为每个表型选择算法EMMAX并单击继续;
8、可以通过单击Submit GWAS将 GWAS 提交到计算服务器。
9、计算完成后我们将通过电子邮件收到通知。
上传的文件格式
存储基因型数据需要两个文件:PED 和 MAP 文件。
PED 文件开头有 6 个固定列,后跟 SNP 信息。各列应由空格或制表符分隔。前六列包含以下信息:
家庭 ID(如果未知,请使用与第二列中的样本 ID 相同的 ID)
样品编号
父亲 ID(如果未知,请使用 0)
母亲 ID(如果未知,请使用 0)
性别(如果未知则使用 0)
未使用,设置为0
其余列:SNP
MAP 文件包含有关每个 SNP 的信息。每一行对应 PED 文件中的一个 SNP;SNP 的顺序必须与 PED 文件中的顺序相同,即 MAP 文件中的行顺序必须与 PED 文件中的列匹配(从第 7 列开始)
MAP 文件必须恰好有四列,其中包含以下信息(各列应以空格或制表符分隔):
染色体 ID(例如 Chr1 代表染色体 1)
唯一的 SNP 标识符
基因组距离(如果未知则使用 0)
单核苷酸多态性 (SNP) 位置
R语言跑GWAS
https://www.r-bloggers.com/2017/10/genome-wide-association-studies-in-r/