目前临床医学GWAS研究多基于此类The infinitesimal model(详见:解释复杂疾病的四种主流模型 CDCV/RAME/infinitesimal/Broad-sense-heritability ),该模型认为复杂疾病的遗传变异是由于大量的,效应很弱(相对风险低于1.2)的变异引起。该模型解释了丢失的遗传力其实大部分是被隐藏了,由于大量对疾病有较弱效应的变异无法在检验中达到预设的显著阈值。目前很多GWAS关联检验方法都基于这一模型。
这种情况下单个变异不足以用来评估个体对某一复杂疾病的风险,所以为了找到一个能够评估个体疾病风险的值,PRS (多基因风险评分)就应运而生,PRS的概念简单说就是,总和多个遗传变异与表型关系的数值。
在人类基因组中SNP一般为2个等位基因,即所谓的二态性。SNP是指相对于同源染色体上相同位置的碱基变化,而人是二倍体,所以在一般的体内,存在非此即彼的基因型,举例:某SNP的基因型为(G/A),那么在人群中检测出的一对基因型只会是G/G,G/A,A/A,不会出现第三种碱基的改变。
选择纳入计算的SNP
主要的方法包括 :
GWAS中对SNP的检验通常是逐个进行的,由于LD的存在,这会使得SNP的效应估计值有偏差,继而导致PRS出现偏倚。为了减弱这种偏差目前有两种主流方法:
1. p值 clumping + thresholding法 (P+T 或 C+T) :
一种常用的方法就是在PRS的计算中只纳入一部分SNP,也就是先进行clumping(基于p值的pruning) (详见:SNP的LD剪枝与聚集 LD pruning & clumping),筛出各个loci里p值最低的SNP,然后再基于p值的某个阈值,选择纳入的SNP。
2. beta 缩减法
与第一种纳入部分SNP的思路不同,第二种方法是纳入所有的SNP,但在计算时会基于LD信息调整SNP的权重,例如LASSO回归(lassosum),与一些基于贝叶斯方法的算法 (LDpred等)。