全基因组关联分析 (GWAS) - 简介

在硕士就读期间,就已经做过 GWAS 相关的分析。当时标记量非常少, windows 系统分析就足够了,作图方面涉及的脚本也基本是蔡师兄帮写的。后来,随着高通量测序成本的降低,标记数量越来越多,不得不进入 linux 和 脚本操作的时代,因此我也陆陆续续的学习了 R 和 Python等编程语言,但是在编程的世界里,只是一个小菜鸟,大部分的脚本都是“借来的”。
而此次 GWAS方面的相关内容基本取材于百迈客云课堂。

1、基本概念

全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。

image.png

相对于连锁分析的优势
• 关联定位的相对优势:
• 1)分辨率高(单碱基水平)
• 2)研究材料来源广泛,可捕获的变异丰富
• 3)节省时间
关联分析的基础-连锁不平衡(LD)
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)
image.png

r2 和 D'
• r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。
D’能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法
观测到,导致LD强度被高估,所以D’不适合小样本群体研究;
• LD衰减作图中通常采用r2来表示群体的LD水平;
• Haplotype Block中通常采用D’来定义Block;
• 迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素都
会引起LD的改变。
LD衰减
• LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;
• LD的衰减距离决定关联分析时所需标记密度,也在一定程度上决定关联分析的精度。
image.png

Haplotype Block
• 单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域
• 单体型块分析可以用于筛选 tag SNP、确定候选基因的范围等
image.png

2、材料选择与群体设计

材料选择的基本原则
基本原则
1)遗传变异和表型变异丰富
2)群体结构分化不能过于明显(如亚种以上,发生生殖隔离是不能做GWAS的)

image.png

样本量
非稀有变异中,对中等变异解释率(10%左右)的位点的检测功效要达到80%以上时,需要的样本量在400左右
位点的效应越低,需要的样本量越大
image.png

群体类型
−种质资源材料
• 遗传变异丰富,可以同时对多个性状进行分析
• 群体结构复杂,稀有变异多,遗传信息丢失明显
−人工群体
• 包括F2、半同胞家系、动物远交群体、NAM群体、MAGIC群体和ROAM等群体类型。背景单纯,检测功效高;可以放大稀有变异
• 遗传变异不够丰富,重组事件有限,定位精度可能较低
表型调查
精确的表型检测是关联分析的关键
GWAS对数量性状和质量性状都适用
• 数量性状:多基因控制,能够测量得到具体数值,符合正态分布;考虑到数量性状受环境影响大,建议将所有材料在同一环境下培育或养殖,或者用多年多点的数据分开分析后综合结果或取BLUP值作为性
状值进行关联分析。
• 质量性状:单基因控制,无法用具体数值衡量,可转换成0、1等表示,需注意每个群体选取近似的样本。
• 分级性状:表型分布类似质量性状,但实际受多基因控制(数量性状),如抗性性状,因此需要提供每一个个体精确的测量数据。
• 多指标性状:有多个指标可以同时度量时,找出代表原表型数据变异的主成分因子,作为关联分析的表型数据
标记开发与分型
• 实验室常用标记(SSR等)
• SNP芯片
• NGS开发SNP、small Indel、CNV、SV标记
image.png

纵深研究--基因克隆示例
材料:381份粳稻品种(热带和温带品种)
1、关于水稻谷粒大小的性状,GWAS定位到7号染色体,SNP峰值所在地方注释到11个基因;
2、对11个基因分别在稻穗、叶片和根系中做RT-PCR,只有第9个基因OsSPL13在稻穗中表达有差异;
3、OsSPL13基因蛋白表达的进一步验证;
4、分析OsSPL13基因在水稻大粒和小粒之间的序列差异,包括SNP位点和小的indel;
5、通过转基因找到影响OsSPL13基因表达相关的相关区域(5’UTR中的一个串联重复序列);
6、通过RNA干扰的方法将大粒品种GP579和小粒品种Dongjing中OsSPL13的表达量下调后会使水稻籽粒的长度和粒重都显著降低;
7、筛选到1个Dongjing来源的glw7突变体,粒长和粒重比野生型均明显降低;
8、通过chip-seq进行OsSPL13调节下游基因的验证(结果未示)SRS5和DEP1。
image.png

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容