2021-11-30

Nat Biotech | AI高精度全细胞分割算法

原创 存在一棵树 图灵基因 2021-11-30 07:03

收录于话题#前沿分子生物学技术

撰文:存在一棵树

IF=54.902

推荐度:⭐⭐⭐⭐⭐

亮点:

1、构建了包含超过 100 万个手动标记细的数据集,TissueNet,用于训练分割模型;

2、开发了一种支持深度学习的分割算法,Mesmer,其实现了关键细胞特征的自动提取,如蛋白质信号的亚细胞定位,达到了人类水平的性能。


2021年11月18日,美国加州帕萨迪纳加州理工学院生物与生物工程系的David Van Valen与斯坦福大学病理学系的Michael AngeloNature Biotechnology 上发表了一篇名为Whole-cell segmentation of tissue images with human-level performance using large-scale data annotation and deep learning的文章。本文介绍了该团队开发的TissueNet 和 Mesmer,并证明了Mesmer方法的准确性,能够概括 TissueNet 中组织类型和成像平台的全部多样性,达到人类水平的性能。

理解组织中存在的结构和功能关系是基础研究和转化研究前沿的一个挑战,目前多元成像技术的最新进展扩大了可同时定量的转录本和蛋白质的数量,为人体组织样本的大规模分析开辟了新的途径。但是,目前对于全面表征细胞在人体内的位置、功能和表型的工具或算法是缺乏的,特别是用于定位图像中单个细胞的通用算法。自动细胞分割的困难在很大程度上是由于跨组织类型的细胞形状,尺寸和密度的差异引起的,而克服这一困难的途径是需要大量带注释的数据集对其进行训练。这里,该团队试图通过为细胞核和全细胞分割创建一种自动化、简单且可扩展的算法,该算法可在各种组织类型和成像平台上准确执行。开发该算法需要两项创新:一是用于生成大量像素级训练数据集的可扩展方法;二是使用这些数据实现达到人类性能的集成深度学习算法。

如图1所示,该团队开发了一种众包的、人控环的方法来分割细胞,其中人和算法协同工作以产生准确的注释,并就此算法创建了 TissueNet,这是一个包含超过 100 万对全细胞与核注释的综合分割数据集。TissueNet 包含的核标签数量是之前发布的所有数据集总和的两倍,全细胞标签数量达其16 倍。构建 TissueNet 的人控环方法分为三个阶段:第 1 阶段创建注释以训练模型;第2 阶段,新数据通过初步模型输入以生成预测、人工修改、图像校准、模型改进,直至第 3 阶段,无需人工校正即可运行准确的模型。

为了满足细胞分割对准确性和速度的要求,团队创建了 Mesmer,这是一种基于深度学习的组织数据核和全细胞分割算法。如图2所示,Mesmer 的模型由一个 ResNet50 主干和一个特征金字塔网络组成,该网络有四个预测头(两个用于核分割,两个用于全细胞分割);Mesmer 的输入用于定义每个细胞核的核图像和胞膜或胞质图像;将其与现有的 FeatureNet 和 Cellpose进行比较,Mesmer 可以更有效地捕获了图像中每个细胞的真实大小。该团队还检查了 Mesmer 对一系列组织类型的分割预测,可以对细胞进行均一分割,不会出现过大或过小的细胞。

已有结果表明 Mesmer 在没有手动调整的情况下TissueNet中表现良好,但为评估Mesmer 的普遍性,团队针对使用组织或平台特定的 TissueNet 子集训练的模型对性能进行了基准测试,并观察了其与人类病理学家之间的可比性。如图3所示,将Mesmer 的分割预测与五位独立专家人类注释者的预测进行了比较,检测到人对人和人对 Mesmer F1 分数之间没有显着差异,表明 Mesmer 的表现与人类注释者不相上下,意味着Mesmer 以人类水平的性能执行着全细胞分割。

为探索Mesmer在亚细胞信号预测的准确性,该团队用一组表型标记对乳腺癌样本进行染色。如图4所示,使用预测的和真实的分割掩码提取了每个标记的隔室特定表达,发现Mesmer 的亚细胞定位预测与来自真实数据的预测一致;且Mesmer 还提供每个细胞核和细胞之间关系的自动分析,够自动评分核质比,还可通过计算分析不同的信号比可区分T 细胞、单核细胞、肿瘤细胞,明 Mesmer 的分割预测能够准确分类这些图像中存在的细胞多样性。

这里已证明,在 TissueNet 上训练的模型可以利用此数据中存在的两个通道来准确分割各种组织类型的细胞,然而对于一些具有复杂形态的组织类型,仅用两个成像数据通道无法准确捕获。该团队使用 MIBI-TOF 从具有六个谱系特异性标记的人类蜕膜生成多路复用成像数据集,然后使用 DeepCell Label 从图像子集生成谱系感知的地面实况分割,证明谱系感知分割算法可准确地执行了全细胞分割。

考虑到科研工作人员的使用体验,该团队利用开源软件库 DeepCell 集合来创建 Web界面以使用 Mesmer,以及 ImageJ 和 QuPath 插件;并将所有代码、数据和训练模型作为社区资源提供,为将这些现代数据驱动方法应用于广泛的研究挑战奠定了基础。该团队还表示,三维 (3D)全细胞分割是另一个挑战,但目前不存在支持未来模型的 3D等效 TissueNet,可以TissueNet作为起点开发能够对三维数据进行准确预测的算法。

教授介绍

David Van Valen医学博士,现任加州理工学院生物和生物工程系助理教授。2003年大学毕业于麻省理工学院;2011年博士毕业于加州理工学院;2013年,作为访问助理进入加州理工学院;2018年成为研究助理教授。其研究小组的兴趣是是发展对生命系统如何处理、储存和传输信息进行定量的理解,并解释这些信息处理在人类疾病状态中是如何受到干扰的。为此,他的研究小组利用成像、基因组学和机器学习领域的最新进展,以单细胞分辨率和生命系统的预测模型进行定量测量。

参考文献

1Greenwald, N.F., Miller, G., Moen,E. et al. Whole-cell segmentation of tissue images with human-level performanceusing large-scale data annotation and deep learning. Nat Biotechnol (2021).

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Sci Adv | 冷冻电子断层扫描技术解决HIV衣壳结构 原创图灵基因图灵基因2021-11-30 07:03 ...
    图灵基因阅读 308评论 0 0
  • 高阶函数 什么是高阶函数:就是一个函数的参数是函数,或者返回值是函数,满足其中一个就是高阶函数 开闭原则:对扩展是...
    热心市民冯先生_80c2阅读 273评论 0 0
  • Nature | AI病理预测未知原发性癌症的起源 原创榴莲不酥图灵基因今天 收录于话题#前沿生物大数据分析 撰文...
    图灵基因阅读 241评论 0 0
  • 角号的由来 在数学中,要研究各种各样的数和形。它不是人们头脑中固有的,是人们从社会实践中得来的。人类的祖先从开始制...
    馫南阅读 90评论 0 0
  • 自执行方法 定义一个自执行函数,函数定义完成后,自己执行一次,函数名可以省略,因为没有任何意义 注意:要以分号结束...
    z丶w阅读 198评论 0 0