同样是一篇医学的GWAS文章, 其对将多个研究的SNP排序列表整合为一个列表。
原因:由于基因组研究的巨大异质性和有限的后续研究资源,只给出部分和/或排名最高的列表很普遍。为了能够处理这样的列表,过去曾提出过一些临时的调整建议,但是等级汇总(rank aggregation, RA)方法如何对它们进行调整(调整之后)尚未得到充分评估。
方法: 在本文中,提出了一个系统框架来定义可能发生的不同情况,这些情况可能基于单独排列的列表的性质而定。进行了全面的模拟研究,以探索适用于基因组应用的现有RA方法集合的性能特征,这些方法适用于模拟实际情况的各种设置。
结果:提供了一个非小细胞肺癌数据示例以供进一步比较。根据实际的数值结果,提供了有关哪种方法执行最佳/最差以及在什么条件下的通用指南。此外,我们讨论了实质上影响不同方法性能的关键因素。
RA方法有多种,本文给出的分类:
由于在大多数应用中没有可用的标记数据,因此无监督RA在文献中占主导地位。此研究主要重点介绍无监督方法,可以将其首先分为贝叶斯方法和frequentist方法。性能评估将在“性能评估”和“数据示例”部分中进行,仅适用于无监督方法。
1 Bayesian methods
通常,贝叶斯方法依赖于后验推断中涉及的某些量(例如,后验概率,贝叶斯因子)来确定汇总排名.
BARD使用贝叶斯模型选择公式,并将质量参数与每个基本等级相关联,以量化该等级的可靠性。它将实体分为两组:相关和不相关,并忽略实际排名。对于每个基本等级,假定所有不相关项的相对等级都是纯随机的,而相关项的相对等级则遵循幂定律分布。每个项目相关的后验概率用于获得汇总排名。BIRRA从平均排名开始,以获得初始的总体排名,并根据其先验概率将排名最高的项目分配为相关,而将其余项目分配为不相关
BIRRA从平均排名开始,以获得初始的总体排名,并根据其先验概率将排名最高的项目分配为相关,而将其余项目分配为不相关。然后将数据集离散到多个箱中。该算法迭代计算每个基本排名的按位贝叶斯因子,并通过贝叶斯定理计算每个项目相关的后验概率,以更新排名,直到排名不变或达到预先指定的最大迭代次数为止。
2 Frequentist methods
尽管Bayesian变的越来越收到欢迎,但最常用的方法还是Frequentist methods。
其可以进一步分为参数法和非参数法。
在本文中,“非参数”表示不使用任何基础数据模型或其他分布信息。根据一种方法是否旨在优化某个特定标准,可以将非参数方法分为基于非优化的方法和基于优化的方法。相反,参数化方法基于某些基础模型或分布,并且可以进一步分为基于分布的方法和基于马尔可夫链的方法。
非参数法
2.1.1 基于非优化的方法
最近提出的非优化方法包括“稳定性选择” 和“循环法”
稳定性选择的思想是稳定性选择的思想是,如果根据选择的阈值在许多基本等级中将其排名较高,则将其排名更高。Round Robin通过简单且随机的方式分配等级:首先对基本等级进行随机排序,然后将最高等级分配给第一个排名最高的商品,将第二最高等级分配给排名最高的商品从第二个等级开始,并以这种方式进行到每个基本等级中排名第二的项目,依此类推,直到每个项目都获得一个等级。尽管这两种方法直观且易于计算,但由于与Borda的方法相比其鲜为人知,因此不会考虑对这两种临时方法进行性能评估。
2.1.2 基于优化的方法
它们旨在最小化某些距离度量,以便聚合的排名与所有基本排名尽可能接近。
两个常用方法为:Kendall’s tau and Spearman’s footrule distances
最初提出时,即使使用中等大小的数据,基于优化的方法在计算上也非常强大。随着现代计算能力的普及,它们变得更加可行。但是,与其他方法相比,它们通常需要更长的时间来运行,尤其是对于基因组设置中相对较长的列表。
2.2 参数法
2.2.1 基于分布的方法
如果一种方法假设模型有一个潜在概率或使用从排名数据计算出的任何统计信息的分布信息,则将其分类为基于分布的方法。
Kolde等人的稳健秩聚合(RRA)是基于分布的方法的一个示例。将项目在每个已排序列表中的位置与一个空模型进行比较,在该模型中所有列表都是非信息性的,即该项目的随机混洗。基于订单统计的参考分布(即beta分布),将数字分数分配给每个项目。P -值计算基于所述数字分值的Bonferroni校正,以避免对获得精确需要重症计算P -值。最终的聚合等级是通过对P值进行排序而获得的。
2.2.2 基于马尔可夫链的方法
其是在马尔可夫链建模框架下开发的,其中所有基本等级的项的并集形成了状态空间。然后,以某种方式构造过渡矩阵,以使过渡矩阵的固定分布在排名较高的状态中具有较大的概率。
三个例子:
MC1:下一个状态是由所有状态的集合统一生成的,所有状态有至少一个基本等级排列为与当前状态一样高。
MC2:下一个状态是由所有状态的集合统一生成的,这些状态至少被基本等级的一半排序为与当前状态一样高。
MC3:移至某个状态的概率与将该级别排在当前状态之上的基本分级器的数量成正比。
3 AR实际应用的关键问题
对于AR的不同方法;需要看一下问题:
数据结构,软件的可用性,数据输入格式和用于评估RA方法性能的度量。
3.1 不同列表类型
提出假设,四种不同的类型:
两种情况:A为top-k列表的一个例子是,与某种疾病相关的top-k基因发表在论文中,所分析的数据可以在一些公共数据库中找到 ; B为中排在前k位的列表为最初研究项目的子集,而这些子集没有其各自的排名,例如差异表达基因的集合。
A与B的处理如下:
3.2 算法选择
基因组研究倾向于生成“一些排名较长的列表”,马尔可夫链法,CEMC方法,RRA,Stuart,BARD和BIRRA等方法是在基因组实验的背景下专门开发的;因此,对于“一些长名单”来说它们的效果会更好。
3.3 软件
两个R包,可以用多种算法。 需注意它们将以不同的方式实现Borda的方法
3.3 输入数据格式
有两种排列等级数据的方法。
第一个是基于项目的,其中每一行代表一个项目(例如i),每一列代表一个研究(例如j),第(i,j)单元格显示研究j中项目i的等级。
第二个是基于等级的,其中每一行是一个特定等级(例如i),每列表示一个研究(例如j),第(i,j)个单元格显示在研究j中获得等级i的项目。
与基于排名的格式相比,基于项目的格式可以更好地适应“各种类型的列表的特征”部分中介绍的不同实际情况。
RA实现(例如,“ RobustRankAggreg”中的算法和BARD的C ++程序)可同时使用两种类型的输入格式,而其他实现算法(例如“ TopKLists”中的算法)仅可使用其中一种格式。实际上,如果将基于等级的格式输入提供给“ RobustRankAggreg”中的算法,则在应用RA方法之前,数据将转换为基于项目的格式
3.3 结果评估的方法
许多基因组研究的一项主要任务是鉴定与某些复杂人类疾病相关的基因。考虑到这一点,评估RA方法性能的良好措施应评估每种方法对相关基因进行准确排名的能力。假设只有有限的资源可用于进一步研究最初研究的基因,则排在列表顶部的基因的顺序至关重要,而排在底部的基因的顺序几乎无关紧要。换句话说,我们没有考虑只能评估整个汇总列表(如AUC(接收器工作特性曲线下的区域))的度量,而是对可用于评估汇总列表中排名靠前的部分的度量更感兴趣。
此类度量包括Spearman的相关(将Pearson相关性应用于排名而不是两个列表的实际值),Kendall的相关(一致对数减去不和谐对对与总对数之比),Spearman’s footrule distanc,Kendall’s tau d 距离和覆盖率(聚合列表中排名靠前的基因的子集覆盖的相关基因的百分比)。与距离度量相比,相关度量和覆盖率的优势之一在于它们处于固定范围内: Spearman’s and Kendall’s correlations both take on values in [−1,1], and the coverage rate takes on values in [0,1].
Note that Spearman’s footrule and Kendall’s tau distances, as defined in ‘Frequentist methods’ section, are designed for full lists. In Lin [[33](javascript:;)], these distance measures are modified to be applicable to top-k lists.
4 试验设计
所比较的方法包括:四种非优化方法,分别来自Borda的MEAN,MED,GEO和L2。两种基于优化的方法: CEMC.s和CEMC.k;两种基于分布的方法,RRA和Stuart;三种基于马尔可夫链的方法,MC1-MC3;还有两种贝叶斯方法,即BARD和BIRRA。
R包“ TopKLists”和“ RobustRankAggreg”在MEAN,MED和GEO上具有不同的实现,因此我们在这些方法前添加小写字母,以指示用于实现的包: “ r”代表“ RobustRankAggreg”,“ t”代表“ TopKLists”。具体来说,“ RobustRankAggreg”对所有实施的方法均使用归一化等级。对于MEAN,它分配每个平均等级的P值,其分布是渐近正态的。“ TopKLists”对输入数据集进行预处理,主要合并有关基本排名空间(如果有)的信息,并用最大排名加一代替缺失的排名。
给出两种情况:A为知道所有SNP排列情况,提出top K个SNP; B为不知道所有所有SNP排列情况,提出top K个SNP。
每种情况下K 也分别设置了10, 50, 100; λ为0,0.05, 0.2, 0.8, 1(覆盖率); Pt 设置了0.01, 0.05, 0.1, 0.2, 0.6, 0.8, 1.
5 结果
5.1 top 50 SNP
A情况:Stuart似乎是最好的方法,紧随其后的是rGEO和MC3
B情况:tMean,tGEO,tL2,MC1和MC3, 并且“TopKLists”包的性能始终好于“ RobustRankAggreg”
整体上所有算法结果: A情况优于B情况
5.2 λ 与 Pt
整体上所有算法λ=1和 Pt=1较好
5.3 多重测试情况
除CEMC,BARD和MC1-3以外的所有方法都具有计算效率,即使 I= 10000,运行时间也只有几秒钟。
5.4 实际数据例子
数据:
结果:BARD, MC2 and MC3 结果好
6 讨论
所有算法比较;
该论文优点:
提供了更新的评论和分类RA方法的系统方法。
规范了在基因组环境中经常出现的不同类型的排序列表的框架。
讨论了过去被广泛忽略的重要实际问题。
RA的性能可能主要取决于有关基本等级的可用信息量以及可用于后续调查的资源。
应该使用有关领带的信息(如果有的话),以及如何使用这些信息可以产生重大的影响。
参考:Xue Li, Xinlei Wang, Guanghua Xiao, A comparative study of rank aggregation methods for partial and top ranked lists in genomic applications, Briefings in Bioinformatics, Volume 20, Issue 1, January 2019, Pages 178–189,(https://doi.org/10.1093/bib/bbx101)