All of Us研究计划,旨在“加速健康研究和医学突破,为我们所有人提供个性化的预防、治疗和护理”。属于该研究计划的小组,最近在Nature上发表了一篇题为Genomic data in the All of Us Research Program。然而,在该文章中却出现了一些撰写问题,包括:
种族、民族和遗传祖先的混淆:这三个概念是不同的,但在论文中,这些概念的处理方式可能导致误解。
遗传祖先群体的假设:论文中使用的遗传祖先群体标签(如“非洲”、“东亚”、“南亚”等)基于当代个体之间的遗传相似性,但这些群体内部的遗传差异被忽略了。
图例和颜色使用的问题:图例中种族、民族和遗传祖先的颜色相同,这可能暗示了它们之间的直接对应关系,但实际上这种关系并不明确。
Rye程序的使用:Rye是一个用于遗传祖先分析的程序,虽然运行速度快,但其结果与之前的标准工具ADMIXTURE有显著差异。
UMAP(Uniform Manifold Approximation and Projection)的使用:UMAP用于降维和可视化数据,但文章指出UMAP在表示混合血统时存在问题,可能会误导数据的解释。
科学种族主义:论文中对遗传数据的误用,可能会加深对种族的刻板印象和歧视,从而为“恐怖主义”提供错误的“合理化”解释。因此,我们需要对遗传学研究中的种族、民族和遗传祖先的概念进行更严格的界定和解释。
这些问题,在我们日常撰写文章时经常遇到,例如基础概念混淆、错误的前提假设、数据不客观的可视化、数据处理时软件和统计方法选择的不严谨等。这些看似很“小”的问题,会对结果带来错误的解读。因此特地分享这篇评论,通过实际的例子帮助大家深刻理解在撰写文章中常遇到的问题。
评论原文:
背景
1790 年 8 月 2 日开始的第一次美国人口普查包括个人种族记录。它使用了三个类别:“自由白人”、“所有其他自由人”和“奴隶”。从那时起,美国人口普查定义的种族类别一直是一个反复出现的争议话题,多年来类别发生了多次变化。
令人震惊的是,1850 年引入的“黑白混血儿”类别一直保留到 1930 年。“混血儿”一词源自西班牙语,意为“骡子”(马和驴的杂交后代),用于指代非洲和欧洲的多种族个体血统。
在 2020 年最近一次十年一次的人口普查中,使用的种族类别由管理和预算办公室 (OMB) 确定,包括“白人”、“黑人或非裔美国人”、“美洲印第安人或阿拉斯加原住民”、“亚洲人”、 “夏威夷原住民”或“其他太平洋岛民”,以及第六类“其他种族”,适用于不认同上述五个种族中任何一个的人。
另外,2020 年人口普查包括种族标准,该标准于 1977 年作为 OMB 第 15 号指令的一部分首次引入。引入了两个种族类别:“西班牙裔或拉丁裔”和“非西班牙裔或拉丁裔”。 OMB 明确指出,种族和族裔是不同的概念:西班牙裔或拉丁裔人可以属于任何种族。
虽然种族和民族是社会建构,但血统是根据地理、家谱或遗传学来定义的。这三种血统之间的关系很复杂,而且可能不直观。格雷厄姆·库普 (Graham Coop) 有一系列精彩的博客文章,阐述了不同类型血统的微妙之处。例如,在“我有多少个遗传祖先?”中他举例说明了遗传祖先数量与谱系祖先数量之间的区别:
AoUR(All of Us Research)图2利用遗传祖先群体的概念。这些没有准确的公认定义,但对该术语如何使用的分析表明,诸如“欧洲人”之类的遗传血统标签是基于当今个体之间的遗传相似性。 Coop 在一篇重要论文中对此进行了仔细而清晰的解释:人类遗传学中作为样本描述符的遗传相似性与遗传祖先群体。
在 AoUR图2中,使用的祖先群体是“非洲”、“东亚”、“南亚”、“西亚”、“欧洲”和“美洲”。在他们的方法部分,作者声称这些是基于人类基因组多样性计划和 1000 个基因组使用的标签,他们在方法中具体解释的是:非洲、东亚、欧洲、中东、拉丁美洲/混合美洲和南美洲亚洲人(在人物传说中,他们将“拉丁裔/混血美国人”重命名为“美国人”,将“中东人”重命名为“西亚人”)。对于每一个由 1000 个基因组计划的参与者通过自我识别的种族和民族获得的标签,作者整理了他们的遗传数据以获得遗传祖先群体。这些分组中固有的是同质性假设,这当然是不正确的,因为个体的遗传学可能有所不同,并且他们自我认定的种族和民族可能基于家谱或地理,这可能与他们的遗传相关性不一致。人工构建的“遗传祖先群体”中的其他个体。库普在总结其论文的一个要点时雄辩地阐述了这一点:
在我看来,“遗传相似”一词也有助于避免标签内同质性的假设;类似于“并不意味着”相同”。基于相似性的样本描述符也促使我们在样本描述中承认人类群体遗传变异的连续性。我在基因上与某些样本的相似性高于我与其他样本的相似性,但这并不意味着存在自然分组,基于相似性的标签也不意味着我作为一个个体可能会选择如何识别或我可能经历的环境分布。例如,一个人可能在基因上与标记为南亚的 1000 个基因组样本相似,但这种相似性本身并不能将他们识别为南亚人,而说一个人具有南亚遗传血统“更接近于在人们的脑海中创建联系。
总之,对于理解 AoUR图2来说,三个概念至关重要:种族、族裔和遗传血统,每一个概念都互不相同。自我认同于特定种族的个人,例如西班牙裔或拉丁裔,可以自我认同于任何种族。个人自我认同于特定种族,例如“黑人或非裔美国人”可以在不同程度上与六种遗传祖先群体有不同程度的遗传相关性,而遗传祖先群体既不是一个种族也不是一个民族,而是对一组(大多数在遗传上相似但也有些任意定义)个人。
AoUR图2如下所示。在以下部分中,我们将详细讨论图中的每个子图。
我们从图例开始,其中列出了种族、民族和血统。种族和民族是指参与者自我确定的种族选择(基于 OMB 类别)。祖先是指上面讨论的遗传祖先群体。虽然这三个概念截然不同,但祖先颜色与某些种族和民族颜色相同:
这是有问题的,因为颜色表明某些种族和民族以及遗传血统群体之间存在 1-1 的一致性。事实上,并不存在这种明确的关系,如 AoUR图2中的混合子图所示(更多内容见下文)。理想情况下,种族、民族和遗传血统概念的独特性质将通过不同的调色板来表示。
作者可能对这一点感到困惑,因为他们在论文中写道“在我们所有人的基因组数据的参与者中,45.92%的人自我认定为非欧洲人种或民族。”这是没有意义的,因为没有一个种族类别是“欧洲人”,而“欧洲人”也不是一个种族类别。因此,“非欧洲人”作为种族或民族类别没有意义。作者似乎假设白人=欧洲人,正如他们的配色方案所示,因此“非欧洲人种”就是非“白人”。
但按照这种逻辑,“西班牙裔或拉丁裔”=“美国人”意味着“西班牙裔或拉丁裔”不是“欧洲人”,这意味着“西班牙裔或拉丁裔”不是白人,这与 OMB 对种族和民族类别的具体定义相矛盾。个人的种族自我认同与其种族自我认同无关,有人可能自我认同为白人、西班牙裔或拉丁裔。显然,阅读 NASEM 关于在遗传学和基因组学研究中使用群体描述符的报告以及 NIH 关于种族和国籍的风格指南,论文的作者将受益匪浅。
血统分析
AoUR图2的(c)部分,展示了一种祖先分析,包括运行一个名为Rye的程序,为每个个体分配遗传祖先群体的一部分。图片及其子图如下所示:
这些图片有几个问题。首先,它没有 x 轴或 y 轴。
标题将其描述为显示“人类基因组多样性计划和 1000 个基因组样本定义的六个不同且一致的祖先群体中每个个体的遗传祖先的比例”,从中可以推断出每个图片中的每一行对应于一个个体,并且横轴将一个区间(图的宽度)划分为六个祖先群体的比例。
原则上,图片可以进行转置,其中列对应于个人,但事实并非如此,例如,黑人或非裔美国人的血统分配,然而却没有一个人被证明有分配100%到欧洲,但这只是一个猜测。因此,最好给轴贴上标签。
该图的第二个问题是每个结果图的高度相同,因此无法反映每个独立报告的种族和民族的人数。例如,夏威夷原住民或其他太平洋岛民只有 237 人,而白人则有 125,843 人。数字就在那里,但结果图的高度却表明情况并非如此。下面的条形图显示了 AoUR图2的(c)部分所用数据中每个种族自我认同的人数:
AllofUs研究计划列出了多样性和包容性目标:“当来自不同背景的人都参与健康研究时,医疗保健会更加有效。我们所有人都致力于招募多元化的参与者群体,其中包括过去被排除在研究之外的群体的成员。”这是一个令人钦佩的目标,虽然与之前的群体相比,我们所有人都招募了相对较多的自我认定的黑人或非裔美国人参与者,但值得注意的是,在这项分析中,白人仍然获胜(很多) 。
该图的第三个问题是将“西班牙裔或拉丁裔”种族置于按种族将祖先群体分配给个人的小组中间。如前所述,种族的自我认同与种族是正交的。因此,该图中存在歧义,即不清楚西班牙裔或拉丁裔图中代表的某些个体是否出现在与种族相对应的其他子图中。将民族类别与种族类别并列也混淆了两者之间的区别。
祖先分析基于名为 Rye 的程序,该程序于 Conley 等人于 2023 年发表。Rye 的重点是运行时性能:与以前的工具不同,该软件可扩展到英国Biobank规模的项目。事实上,与该领域的标准程序 ADMIXTURE 相比,它的运行时性能令人印象深刻:
然而,虽然 Rye 比 ADMIXTURE 更快,但其结果与 ADMIXTURE 的结果有很大不同,如论文的补充图 S5 所示:
我自己没有对这些程序进行基准测试,但遗传学家对 ADMIXTURE 有一些经验,该文章发表于 2009 年,已被引用超过 7,000 次。来自与 All of Us 相关的两个团体的 Rye 计划已被引用两次(两次均由属于 All of Us 联盟成员的 Rye 作者;两次引用之一是此处讨论的论文)。当然,不应该以引用次数来判断一篇论文的质量。一篇被引用两次的论文所描述的方法可能优于一篇被引用超过 7,000 次的论文。但论文中重复出现** p 值 = 0 令我感到不安**(请参阅下面的众多示例之一)。
此外,R2在这里也是错误的度量。正确的评估是检查一致性相关系数。最后,也是重要的一点,Rye 论文描述的结果不是基于高维数据类型的推理,而是基于对前** 20 个主成分的投影。值得注意的是 All of Us 论文,特别是 AoUR图2中报告的结果,使用了 16 个主成分。没有提供使用 16 个主成分的理由,没有描述使用 20 个主成分时结果可能有何不同,也没有描述结果对该参数的稳健性的一般分析。
无论如何,抛开Rye和干实验的问题,单从表面上看混合结果,很明显,独立报告种族为“西班牙裔或拉丁裔”的个人在欧洲和美国人之间高度混合(后者的意思是拉丁裔/拉丁裔)美国混血)。这与所选择的配色方案形成鲜明对比,西班牙裔或拉丁裔的颜色纯粹是“美国”**,意味着自我认同该种族的个人不是欧洲人。它也与 AoUR图2面板的(a)和(b)中的 UMAP 显示不一致。
UMAP废话
AoUR图2呈现两个 UMAP 图形,如下所示。两个图中的 UMAP 是相同的;在顶部子图 (a) 中,它按种族着色,在底部子图 (b) 中,它按种族着色。
关于此图,首先要注意的是,它有不应该有的轴。 UMAP 1 和 UMAP 2 没有意义,y 轴上的刻度线 (-20, -10, 0, 10, 20) 和 x 轴上的刻度线 (-10, 0, 10, 20) 没有意义,因为 UMAP 任意扭曲了距离。不知何故,作者设法将轴放在不应该有的图上,并在应该有的图上省略了轴。此外,由于按颜色绘制点会导致一种颜色叠加在另一种颜色上,因此很难看到存在颜色的混合。对于数据的性质来说,这可能会产生很大的误导。
比坐标轴(这实际上只是表明作者不理解 UMAP)更令人担忧的是绘图本身。 UMAP 变换会扭曲距离,特别是,由于这种扭曲,它在表示混合方面很糟糕。以下说明性示例由 Sasha Gusev 构建:
但人们不必通过检查模拟来发现问题。这个问题在 AoUR图2的(c)图中很明显。例如,考虑如下所示的西班牙裔或拉丁裔血统分配:
这种混合与(b)中的 UMAP 形成鲜明对比,这表明西班牙裔或拉丁裔种族几乎与欧洲人完全脱节(作者通过配色方案将欧洲人识别为白人)。这表明 UMAP 可以而且确实将混合个体瓦解到种群中,同时在不存在分离的地方产生分离的幻觉。
我最近与 Tara Chari 在 UMAP 上发表了一篇论文,题为“单细胞基因组学的似是而非的艺术”。它系统地检查了 UMAP 并表明变换扭曲了距离、局部结构(通过不同的定义)和全局结构(再次通过多个定义)。没有与 UMAP 方法相关的理论。不提供任何形式的性能保证。不明白它在做什么,也不知道为什么。我们的论文是证明 UMAP 启发式这些缺点的几篇论文之一(Wang、Sontag 和 Lauffenberger,2023)。因此,我不清楚为什么 All of Us 联盟选择使用 UMAP,特别是考虑到他们(特别是 Rye 的作者之一和 All of Us 联盟的成员)一年前就被警告过 UMAP 的缺点。
科学种族主义
滥用种族、民族和遗传血统的概念,以及歪曲遗传数据来制造虚假叙述,是一个严重的问题。我这样说是因为这种歪曲事实与恐怖活动有关。 2022 年在一场种族主义暴乱中杀害 10 名黑人的布法罗恐怖分子写道:
犹太人不能被认为是欧洲人,他们可能有一小部分甚至很大比例的欧洲DNA,但这并不能改变这一点。他们根本就不是欧洲人的后裔,就像德鲁兹人、撒玛利亚人和黎巴嫩人一样今天的人不能被认为是欧洲人。
他的宣言(本文摘录自该宣言)中包含下图:
这个情节与拉齐布·汗(Razib Khan)的情节惊人地相似,他在其中使用了“四方犹太人”(Quadroon-Jews)一词(汗的形象发表在 Unz Review 上,这是极右活动家和大屠杀否认者 Ron Unz 出版的网站)。 “Quadroon”一词出现在 1890 年美国人口普查中,是对“Mulato”的改进(请参阅帖子顶部的第一个)。
这些图显示了通过主成分分析 (PCA) 将基因型投影到二维,与 UMAP 不同的是,该过程提供了可解释的图像。二维 PCA 投影最大化数据中保留的方差。然而,PCA 及其相关的可解释性并不是万能药。虽然理论提供了对 PCA 投影的理解,因此也提供了对投影可解释性的限制,但潜在的误用使得必须在此类图中包含显示它们的基本原理以及适当的警告。不使用 UMAP 的主要原因之一是无法解释启发式变换实现了什么以及没有实现什么,因为不了解变换的属性,只有经验证据表明它可以并且确实经常失败以实现其声称要做的事情。
伪科学信念认为人类可以在基因上分为不同的种族群体,这是科学种族主义的一部分。这种伪科学及其催生的种族主义政策在许多地方都有根源,但必须承认其中一些是在学术界。几年前,我写过詹姆斯·沃森的科学种族主义的堕落,虽然他的(科学)种族主义因他的名气而被公开记录,但科学种族主义无处不在,而且经常被忽视。布法罗恐怖分子和沃森所宣扬的观点因学术界对“种族”和“族裔”等术语的草率使用以及对个体之间基因相似性的歪曲而得到强化。
总结
当今群体遗传学中的许多概念都是有问题的。库普对遗传祖先群体的雄辩批评只是一个例子。混合的概念也植根于种族主义,并依赖于不科学的纯度概念。考虑到这一点,我认为仅仅将 AoUR图2归入 Karl Broman 的最差图表列表是不够的。 AoUR图2的众多含义,其中包括作者声称在种族上被认定为西班牙裔或拉丁裔的个人在基因上不是欧洲人,因此在种族上不是白人(请参阅上面关于血统分析的部分,了解为什么这是不正确的解释),都是科学种族主义。因此,All of Us 作者应立即发布对 AoUR图2的更正,包括澄清其目的,并对文本进行更正,以便论文正确使用种族、民族和血统等术语。我们所有人都需要更加努力地提高人类遗传学的严谨性,并开发合理的方法来解释和表示遗传数据。
本文由博客一文多发平台 OpenWrite 发布!