无意看到一篇中文文章,并且写出了多种算法,这里总结一下。
1 得到的数据分三种情况
1 完全列表(full list, FL): 得到的各结果为完整SNP列表(并且每个为1个排序),但是生物信息领域一般不会这样,一般只选择top的SNP研究。
2 平局列表(full list with ties, TL): 得到的各结果为完整SNP列表,但有的两个SNP排序相同
3 不完全列表(incomplete list, IL): 得到不完整的列表,这个在生物信息领域最常见
文献的例子如下:
2 经典方法依据及其缺点
在评价指标的选择上, 大多数工作使用斯皮尔曼等级相关系数或肯德尔 距离. 这两个经典量只适
用于排名列表包含所有对象的情况, 不能应用在IL 数据中, 同时它们也没有考虑不同排名位置的
不同权重. 在真实场景中, 靠前的排名应比靠后的排名具有更高的权重, 例如第1 名和第2 名、第
50 名与51 名之间均只相差1 个排位, 但前者的排名差距权重比后者更大.
3 方法讲解
作者将排名聚合方法分为启发式方法和优化类方法两类
3.1 启发式方法
主要有: KwikSort, FaginSmall, BioConsert,PageRank
BordaCount(波达计数法),MedRank, MC3(马尔科夫链方法),
3.2 优化类方法
上述启发式方法尽管在运算速度上有优势, 但是并不能在理论上保证最终排名的性能最优性. 针对这一不足, 一些学者提出了优化类方法, 通过优化基于某一性能指标的目标函数, 获得聚合排名.在衡量两个排名之间一致性情况下, 采用不同的性能指标(如距离函数、等级相关系数和违例数等) 会得到不同的优化方法。
主要有:FAST(分支定界方法),MVR(最少违例数方法),
4 评价指标
一个合理的相似性度量指标需要能够处理对象未同时出现在排名中的情况, 即列表不等长; 赋予高排名对象比低排名对象更多的权重; 同时相似度取值随着排名列表长度的增长而最终收敛.。
FL数据:
TL与IL数据
5 结果
整体而言, 基于距离优化的分支定界方法(FAST) 优于其他各类算法, 在不同类型的排序列表中表现非常稳定, 能够很好地完成少量长列表的排名聚合.
参考文献:陈玟宇,朱章黔, 王晓蒙和贾韬。2020. 排名聚合算法在少量长列表聚合中的性能比较分析。(DOI: 10.7498/aps.69.20191584)