Tahoe-100M 数据集

Tahoe Therapeutics(前身为 Vevo Therapeutics)是一家位于美国南旧金山的生物技术公司,旨在利用其体内药物发现平台和新一代人工智能模型,为更多患者研发更有效的药物。该公司开发的 Mosaic 平台是首个能够以单细胞精度大规模生成体内数据的平台,可在药物发现的初始阶段捕捉疾病的体内背景,并比目前的体外检测方法更好地反映患者对药物反应的差异。Tahoe-100M 数据集已经公开可以供免费使用

1 摘要

1、文章介绍了 Tahoe-100M,这是一个包含 1 亿(100M)个转录组谱的千兆级单细胞图谱,用于测量 1100 种小分子扰动如何影响 50 种癌细胞系中的细胞。其中高通量的 Mosaic 平台由高度多样化且优化平衡的“细胞群”组成,可以减少批次效应

2、Tahoe Therapeutics 利用癌症模型和药物化合物创建了这一资源,但 Tahoe-100M 的根本设计理念是作为一个广泛适用的扰动图谱,支持对多种组织和环境下的细胞生物学进行更深入的探究。通过公开发布该图谱,该公司旨在加速构建和开发用于系统生物学的稳健 AI 框架,最终提升预测和操控细胞行为的能力,并将其应用于广泛的领域

2 介绍

1、细胞生物学的一个长期目标是构建预测性的机制模型,以阐明细胞如何整合信号并执行精确的转录和表型反应

2、构建表达力强的细胞行为计算机模型需要生成大型定量数据集,系统地描绘细胞状态(例如,通过其转录组谱测量)如何被各种干预措施(包括遗传、化学或环境扰动)重塑。扰动测量可以阐明基因间的因果相互作用,揭示反馈回路,并暴露补偿通路,从而揭示控制细胞行为和功能的潜在调控网络

3、Tahoe Therapeutics 开发了 Mosaic 平台,该平台利用 scRNA-seq 技术,并行捕获了数千种扰动下的高分辨率转录组响应。通过在每次实验中构建包含数十至数百个不同细胞模型的 “cell villages”,该平台显著降低了批次效应,同时能够扩展到越来越大的扰动集

3 结果

3.1 利用 Mosaic 平台产生 Tahoe-100M 图谱

1、文章利用 Mosaic 平台测量了 50 种癌细胞系对药物治疗的转录组反应(Fig1A)。具体流程为:培养了由多种细胞系混合而成的悬浮球体,并对每个球体分别进行不同的药物处理,包括 DMSO 溶剂对照。药物处理 24 小时后,将球体解离、固定,并使用 Parse GigaLab 试剂盒进行分析。除了生成不同处理条件下的单细胞基因表达矩阵外,文章还检测了 scRNA-seq 文库中存在的遗传变异,并进行了基于 SNP 的反卷积分析,以确定细胞的来源细胞系(Fig1B)

2、该数据集共接种了 14 块 96 孔板的球体,并进行了药物处理。测序后,获得了约 1.4 万亿条原始测序读段,代表总共 1.53 亿个细胞(每块板820万至1450万个细胞)。每个细胞平均含有2288个转录本(中位数为1890个)。经过过滤标准处理,最终获得了1.006亿个符合最低过滤标准的细胞和9560万个符合最高过滤标准的细胞

3.2 Tahoe-100M 中的细胞系和治疗多样性

1、在Tahoe-100M的 50 个细胞系中,有 47 个细胞系在所有实验条件下均具有足够的代表性,可用于后续分析。这 47 个细胞系来源于 13 个不同的器官(主要来自肺、肠、胰腺和皮肤),并携带多种驱动基因突变,其中约一半的细胞系存在 TP53、KRAS 和 CDKN2A 的改变(Fig2A)

2、在图谱中使用的 379 种不同的药物中,有 180 种被归类为 25 种 MOA , 每种 MOA 的中位数为 5 种独特的药物(最多 27 种,最少 3 种)(Fig2B,Fig2C)。这些药物中的大多数(69%)是已经批准的药物,并且这些化合物类别靶向多种癌症相关通路。据报道,这些药物靶向 325 个基因,其中 120 个基因被不止一种药物靶向

3、该数据集捕获了 17,813 个独特的 细胞系-药物 条件,与 benchmark(Srivatan et al.2020 和 Replogle et al.2022)单细胞扰动数据集相比,药物增加了 31 倍,条目增加了 29 倍(Fig2D)

3.3 Tahoe-100M 捕获的转录组汇总

1、使用 scVI 对 Tahoe-100M 数据集进行降维,为每个细胞学习一个 10 维的 embedding。1 亿个细胞的数据集可视化较为困难,文章从 47 个细胞系中各抽取了 14 万个高质量的细胞,计算了 tSNE 坐标(Fig3A-C)。从 tSNE 图中可以观察到,细胞在转录组空间中是根据其遗传特性(和细胞周期阶段)而非其来源培养皿进行清晰分离的,这表明在这个统一的约 1 亿个细胞的图谱中,不存在显著的批次效应

2、经过质量控制筛选后,最终获得了一个包含 47 个细胞系、379 种药物、1135 种药物剂量组合和 52886 个独特的细胞系-药物-剂量组合的数据集,每个组合的中位数为 1287 个细胞

3、第 14 号板是第 6 号板的生物学重复,为了检测 Mosaic 平台的重复性,文章对两个培养板进行了基因表达相关性比较,显示一致性较高(Fig3D)

3.4 药物诱导的细胞系转录组效应及其作用机制

1、为了量化 Tahoe-100M 中导致细胞分组的技术和生物学因素,文章基于不同 metadata 估计了局部逆辛普森指数(LISI)。与 tSNE 可视化结果一致,这些结果表明细胞系身份,其次是细胞周期阶段,是驱动数据分层的最主要因素。药物处理和剂量相对于这些因素的影响较小,这表明需要进行差异基因表达分析才能更好地描述药物诱导的变化(Fig4A)

注:Local inverse Simpson’s index (LISI)是一种用于评价数据整合(integration)效果的指标,特别常用于单细胞多批次整合。它衡量的是:在每个点的局部邻域(kNN)里,来自不同批次的“混合程度”。简而言之:Batch LISI(bLISI) → 看批次是否成功混合。Cell-type LISI(cLISI) → 看细胞类型是否被保持(避免过度整合)

2、为了探索药物治疗后转录组反应的图谱,文章首先利用 E-distance(Peidli et al.,2024)研究了特定治疗对整个转录组的影响程度,该指标量化了受扰动细胞群与其对照组的可分离性。与预期一致,文章观察到所有处理中,最高药物剂量下的 E-distance 中位数更大(Fig4B),之前发表的 Sciplex-3 数据集也有类似的结果。检查全基因组 CRISPRi 扰动,按照基因必需性分层时,该数据集中的药物扰动呈现 intermediate 效应

3、普遍而言,对上皮实体瘤有效的抗癌药物(MAPK、PI3K/AKT、MTOR 和 CDK 抑制剂、微管干扰剂和 DNA 合成/修复抑制剂)往往比其他药物(如视黄酸受体激动剂、肾上腺素受体激动剂、环氧合酶抑制剂)或未分类的作用机制药物具有更大的 E-distance(Fig4C)

4、为了基于差异表达基因集评分进行降维,文章选择将每种独特的细胞系、药物和剂量组合视为一个数据点(Fig5A)。文章重点研究了 KRAS G12C 特异性共价抑制剂 Adagrasib 和突变无关性的泛 RAS 抑制剂 RMC-6236,结果表明,在 KRAS G12C 细胞系中,RMC-6236 和 Adagrasib 与在非 KRAS G12C 细胞系中的 Adagrasib 之间存在明显的分离,这与预期相符(Fig5F-G)

3.5 RAS/RAF 通路在特定环境下的抑制作用

1、文章重点关注靶向调节 RAS/RAF 通路的治疗。使用 Vision 软件计算细胞水平的基因集表达评分,然后计算治疗组和对照组之间的差异评分

2、针对 BRAF-V600E 抑制剂达拉非尼,在三种细胞系分层中检测了该特征的差异Vision评分(方法部分):仅携带 KRAS 突变而无其他 RAF 或 RAS 突变的细胞系;携带 BRAF-V600E 突变而无其他 RAS 或 RAF 突变的细胞系;以及既无 RAF 也无 RAS 突变的细胞系。达拉非尼治疗对携带BRAF突变的细胞系产生了最显著的效果,而KRAS突变细胞系的变化则微乎其微

3、其余(略)

4 该数据集的的作用

1、利用大型单细胞扰动图谱构建人工智能驱动的细胞模型

2、揭示了细胞对相同药物扰动的反应存在显著的异质性,为癌症治疗提供了重要的考虑因素(包括亚群动态、通路特异性效应、预测生物标志物)

3、加速癌症药物发现和转化研究(包括耐药机制、联合疗法、个性化医疗)

5 数据下载地址

https://huggingface.co/datasets/tahoebio/Tahoe-100M

https://arcinstitute.org/tools/virtualcellatlas

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容