基础(一)GWAS和PRS的区别和联系及其临床应用

目前临床医学GWAS研究多基于此类The infinitesimal model(详见:解释复杂疾病的四种主流模型 CDCV/RAME/infinitesimal/Broad-sense-heritability ),该模型认为复杂疾病的遗传变异是由于大量的,效应很弱(相对风险低于1.2)的变异引起。该模型解释了丢失的遗传力其实大部分是被隐藏了,由于大量对疾病有较弱效应的变异无法在检验中达到预设的显著阈值。目前很多GWAS关联检验方法都基于这一模型。

一般情况下复杂性状都是多基因决定的,因此有多个位点都对表型有贡献。因此我们可以总结每个位点对表型的贡献,并用以计算和评估表型的变化。这就是PRS的作用。

这种情况下单个变异不足以用来评估个体对某一复杂疾病的风险,所以为了找到一个能够评估个体疾病风险的值,PRS (多基因风险评分)就应运而生,PRS的概念简单说就是,总和多个遗传变异与表型关系的数值。
我们假设图上的位点每一种SNP基因型对于表型(身高)的差异都为2厘米(2 cm)。

在人类基因组中SNP一般为2个等位基因,即所谓的二态性。SNP是指相对于同源染色体上相同位置的碱基变化,而人是二倍体,所以在一般的体内,存在非此即彼的基因型,举例:某SNP的基因型为(G/A),那么在人群中检测出的一对基因型只会是G/G,G/A,A/A,不会出现第三种碱基的改变。
那么由上图,我们可以定义G等位的效应量(effect size)为2cm。

那么可以通过该位点的基因型来计算对应样本的表型值,分别为0厘米、2厘米和4厘米。

那么如果T位点的效应量是-1厘米(-1cm),那么我们同样把T位点的效应叠加上去,就可以算出表型评估值。

G位点的效应量是+0.5厘米(+0.5cm),那么我们同样把G位点的效应叠加上去,算出表型评估值。

请注意!用于计算PRS的数据来源样品不应该与GWAS研究中所用的样品集合有任何交集!样品的重合会严重影响结果的客观性!
PRS既可用于数量性状也可以用于质量性状

Ambiguous SNP, 他的定义是如果突变是A/T或者G/C,那么我们将难以区分基因型到地址AT还是TA,是GC还是CG,因为这些碱基是互补的,无法区分正反。
重复其他突变并统计所有位点

选择纳入计算的SNP

主要的方法包括 :

GWAS中对SNP的检验通常是逐个进行的,由于LD的存在,这会使得SNP的效应估计值有偏差,继而导致PRS出现偏倚。为了减弱这种偏差目前有两种主流方法:

1. p值 clumping + thresholding法 (P+T 或 C+T) :

一种常用的方法就是在PRS的计算中只纳入一部分SNP,也就是先进行clumping(基于p值的pruning) (详见:SNP的LD剪枝与聚集 LD pruning & clumping),筛出各个loci里p值最低的SNP,然后再基于p值的某个阈值,选择纳入的SNP。

三种不同的方法
将高于特定P值的所有SNP汇聚起来,Clumping聚集

聚集后剩下的SNP通常是独立位点,这些位点还需要进行进一步评估,判断是否值得包含进PRS计算中

可以通过设置不同的P值阈值,来控制包含进模型的位点数量,这是示范的八个P值门槛。
PRS性状关联- 需要注意的问题: 1.样品间是否有亲缘关系? 2.组源成分是否有纯合基因和纯合关系?3.亲缘背景是否与对应GWAS数据匹配? 性状方面的问题:1.是否连续数据性状?是否符合线性回归?2.二元性状-是否质量性状?3.枚举性状?

参考GWAS样品群体越大,那么PRS预测准确率越高。

C+T(clumping + p value thresholding)可以让我们发现P值与可解释变异的关系

2. beta 缩减法

与第一种纳入部分SNP的思路不同,第二种方法是纳入所有的SNP,但在计算时会基于LD信息调整SNP的权重,例如LASSO回归(lassosum),与一些基于贝叶斯方法的算法 (LDpred等)。

SNP效应

image.png

image.png

PRS可以用于这些领域

image.png
image.png
image.png
image.png
image.png
image.png

image.png

image.png

image.png

image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容