三代测序人物系列 | Jonathan Göke

三代全长转录组分析软件Bambu，ONT平台RNA直接测序（Direct RNA）- RNA修饰检测的工具m6anet和xpore都出自Jonathan Göke教授的团队。

Jonathan Göke 教授

Jonathan Göke是新加坡基因组研究所（Genome Institute of Singapore ，A-STAR GIS）的课题组负责人，同时也兼任新加坡国立大学（National University of Singapore）统计与数据科学系的副教授。他在德国马普分子遗传学研究所/柏林自由大学（Max Planck Institute for Molecular Genetics/Freie Universität Berlin）获得了计算机科学与数学博士学位。Göke博士曾获得马普学会和德国学术交流中心（Max Planck Society and the German Academic Exchange Service，DAAD）的奖学金，并被选为基因组研究所的fellow（2014-2016年）和A-STAR 的fellow（2024-2027年）。2024年，Göke博士因其“在长读长RNA测序数据分析算法开发方面的开创性工作”而获得了新加坡国家科学院和国家研究基金会颁发的青年科学家奖，开发的算法使得RNA转录和修饰的分析达到了前所未有的分辨率和准确性。他目前的研究工作专注于第三代长读长RNA测序的计算方法的开发。

Jonathan Göke 教授团队成员

实验室主页: https://jglab.org/

一、实验室研究方向

Jonathan Göke教授团队是新加坡基因组研究所的一支计算生物学团队，利用机器学习、统计学和算法，使用高通量RNA测序数据，来研究RNA的作用和功能。其团队专注于使用长读长RNA测序（long-read RNA-Seq）和直接RNA测序（direct RNA-Seq）数据来分析转录本表达和RNA修饰。与实验团队和临床医生合作，将团队开发的算法和方法应用于癌症和阿尔茨海默病的临床样本和疾病模型，并将研究成果转化为新的诊断方法和治疗手段。

1.长读长RNA测序的计算方法

RNA长读长测序的新技术彻底改变了我们对转录组的分析能力。通过测序全长RNA，可以发现单个转录本、可变异构体（alternative isoform）以及之前未被注释的转录本。团队开发了利用长读长测序数据构建转录本注释集的计算方法，这些注释集针对感兴趣的样本进行了优化。这些扩展的注释包含数百甚至数千个新转录本，随后用于更准确的转录本定量（Bambu，2023年，《Nature Methods》）；利用长读长RNA测序能够发现并定量癌症中的融合转录本（JAFFAL，2022年，《Genome Biology》）；通过将长读长测序与单细胞和空间RNA测序相结合，我们能够在高分辨率下分析单个RNA，研究剪接、转座子表达以及可变起始或终止位点在胚胎发育和人类疾病中的作用（Bambu-clump，2025年，bioRxiv）。

2.从直接RNA测序（Direct RNA-Seq）数据中鉴定RNA修饰

利用纳米孔直接RNA测序（Direct RNA-Seq）对天然RNA进行分析，能够从原始电流信号数据中识别RNA修饰信息，例如N⁶-甲基腺苷（m⁶A）。其团队开发了计算方法，能够通过案例对照设计（xPore，Nature Biotechnology (2021)）或监督学习方法（m⁶Anet, Nature Methods (2022)）来识别修饰碱基。这些方法可以准确鉴定m⁶A修饰，定量修饰序列的比例，并可用于识别单个RNA分子中的修饰碱基。

3. 机器学习与人工智能

机器学习、统计学习和人工智能是其团队计算方法的重要组成部分。开发了多种工具和框架，例如多重实例学习（Multiple Instance Learning, MIL）框架，用于识别RNA修饰（Hendra等人，2022年，《Nature Methods》），以及用于改进转录本鉴定的分类器（Chen等人，2023年，《Nature Methods》）。此外，我们将机器学习应用于转录组学和临床数据，以实现患者分类、生物标志物鉴定以及基于RNA的个性化医疗（Demircioglu等人，2019年，《Cell》；Mason等人，2020年，《Leukemia》）。

4. 临床转录组学

与临床医生合作，将团队开发的方法和算法应用于临床样本中的转录本表达和RNA修饰分析，旨在发现新的疾病机制、RNA生物标志物和治疗手段。团队与新加坡国立大学医院、新加坡国家癌症中心（NCCS）、国家神经科学研究所（NNI）以及国家精准医疗计划（NPM）紧密合作，并参与国际联盟，如全癌全基因组分析（PCAWG）和ICGC ARGO。

5. 非编码RNA、剪接、可变启动子和RNA修饰在发育和疾病中的作用

通过分析样本中所有RNA的集合（即转录组），团队旨在识别在早期胚胎发育过程中对细胞身份至关重要的选择性剪接事件、逆转座子、新RNA和RNA修饰，以及与人类疾病相关的这些分子特征。与新加坡基因组研究所（GIS）及全球的实验实验室合作，研究小鼠和人类胚胎干细胞、癌症以及神经退行性疾病模型（参见例如：Oomen等人，2025年，《Cell》；Karwacki-Neisius等人，2024年，《Nature》；Sundar等人，2022年，《Gut》；Huang等人，2021年，《Genome Biology》；Jo等人，2016年，《Cell Stem Cell》）。

二、开发软件

1. Bambu

Bambu是一个用于利用长读长RNA测序数据进行多样本转录本鉴定和定量的R软件包。在完成序列比对后，可以使用Bambu来获取已知和新转录本及基因的表达量估计值。Bambu的输出结果可以直接用于可视化以及下游分析，例如差异基因表达分析或转录本使用（transcript usage）情况分析。

2. xPore

xPore是一个用于从直接RNA测序（direct RNA sequencing）数据中鉴定和定量差异性RNA修饰的Python软件包。

3. m⁶Anet

m6Anet是一个基于Python的工具，利用多实例学习（Multiple Instance Learning, MIL）框架从纳米孔直接RNA测序（Nanopore Direct RNA Sequencing）数据中检测m6A修饰。

4. JAFFAL

JAFFA 是一个多步骤的流程，能够处理原始RNA-Seq序列或预先组装的转录本，并在此基础上搜索基因融合，然后输出候选基因融合的名称和位置，以及它们断裂点的cDNA序列。JAFFA基于将一个转录组（例如癌症样本中的转录组）与参考转录组进行比较的理念。因此，它是一种以转录本为中心的方法，而不是像其他融合检测工具那样以基因组为中心的方法。在验证研究中，JAFFA在不同读长（从50bp到全长转录本）以及单端和双端读段上都表现出色。

三代测序人物系列 | Jonathan Göke