作者,Evil Genius
openAI,格雷格·布罗克曼,据说是最可能超越马斯克的人。
细胞类型标注是单细胞RNA-seq分析的重要步骤。这是一个耗时的过程,通常需要收集典型标记基因和手动注释细胞类型的专业知识。自动化细胞类型注释方法通常需要获取高质量的参考数据集和开发额外的分析流程。
在单细胞rna测序(scRNA-seq)分析中,细胞类型注释是阐明细胞群体异质性和了解复杂组织中不同细胞群体不同功能的基础步骤。标准的单细胞分析软件,如Seurat和Scanpy,通常采用手动细胞类型注释。这些软件工具通过细胞聚类将单个细胞分配到群中,并进行差异分析以识别细胞集群中差异表达的基因。随后,人类专家将典型细胞类型标记与差异基因信息进行比较,为每个细胞cluster分配细胞类型注释。这种手动注释方法需要事先了解给定组织中的典型细胞类型标记,并且通常费力且耗时。尽管已经开发了几种自动细胞类型注释方法,但使用标记基因信息的手动细胞类型注释仍然广泛用于scRNA-seq分析。
生成预训练变形器(GPT),包括GPT-3、ChatGPT和GPT-4,是在大量数据上训练的大型语言模型,能够根据用户提供的背景生成human-like text。最近的研究已经证明了GPT模型在回答生物医学问题方面的竞争性表现。因此,假设GPT-4是最先进的GPT模型之一,具有使用标记基因信息准确识别细胞类型的能力。GPT-4将有可能将手动细胞类型注释过程转换为全自动或半自动过程,人类专家可以提供可选的帮助,以微调GPT-4生成的注释。与其他需要建立额外管道和收集高质量参考数据集的自动化细胞类型注释方法相比,GPT-4具有成本效益,并且可以无缝集成到现有的单细胞分析管道(如Seurat和Scanpy)中。大量的训练数据使GPT-4能够应用于各种组织和细胞类型,克服了其他局限于特定参考数据集的自动细胞类型注释方法的局限性。此外,GPT-4类似聊天机器人的特性允许用户轻松调整注释细胞类型,并为迭代的答案改进提供反馈。
通过评估GPT-4与手工注释的差异,发现GPT-4生成的细胞类型注释与人类专家生成的细胞类型注释之间存在高度的一致性。
根据评估,GPT-4在细胞类型标注方面具有很强的性能,并且优于现有的方法,但在应用GPT-4进行细胞类型标注时仍应注意一些限制。首先,与其他细胞类型标注方法不同,GPT-4的训练库在很大程度上是未公开的,因此很难明确验证GPT-4生成标注的基础。对GPT-4生成的注释的质量和可靠性进行严格评估可能仍然需要一定的人力。其次,由于增加了主观性,人类专家参与可选的微调步骤可能会对结果的可重复性产生负面影响,并且在应用于大量数据集时可能会降低方法的可扩展性。第三,scRNA-seq数据中的高水平噪声和不可靠的差异基因可能会对GPT-4的细胞类型注释产生负面影响。最后,在人工智能的情况下,主要依赖GPT-4进行细胞类型注释可能存在风险。建议人类专家在进行下游分析之前确认GPT-4生成的细胞类型注释的有效性。
代码在GPTCelltype
示例在GPTCelltype
其中的核心命令
res <- gptcelltype(all.markers,
tissuename = 'human PBMC',
model = 'gpt-4'
)