Nature子刊发表“高通量 CRISPR基因编辑技术和更精确深度学习设计方法”

2021年5月,深圳华大生命科学研究院,青欧生命科学高等研究院的罗永伦团队与哥本哈根大学的Jan Gorodkin团队合作(青欧研究院向熙和渠坤丽博士, 哥本哈根大学Giulia Corsi和Christian Anthon博士为共同第一作者),在Nature Communications发表了题为“Enhancing CRISPR-Cas9 gRNA efficiency prediction by dataintegration and deep learning”的研究文章,介绍了目前已知最准确的gRNA效率预测模型:CRISPRon。

此项研究的测序数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0001031。 


研究背景

CRISPR/Cas9作为最新一代的基因编辑技术,以其简便和高效性,已被广泛应用于生命科学的各个领域。携带有特异性靶向序列和保守二级结构的引导RNA (guide RNA, gRNA),能特异性的结合spCas9蛋白形成核糖核蛋白复合物( Ribonucleoprotein, RNP),并靶向切割目标基因组序列,从而进行高效精准的基因组编辑。除了内源靶基因的表观修饰及染色体3D结构等影响因素,高效的基因组编辑很大程度上依赖于选择效率高的gRNA。因此,通过依赖于大数据的机器学习来建立精确的gRNA编辑效率预测模型,是近年来CRISPR/Cas9基因编辑领域的重要研究方向。

随着基因编辑技术的飞速发展,科学家们已开发出多种CRISPR/gRNA效率预测模型。这些模型基于不同的数据制备和采集方式,结合不同策略的机器学习算法,训练得到可靠性不一的gRNA剪切效率预测模型。如Doench等[1, 2]开发的“Azimuth“,Kim等[3]的“DeepspCas9”,Wang等[4]的“DeepHF”,Shen等[5]的“inDelphi”等。这些算法在模型验证的参数和测试数据的选择上不同,直接影响了它们在gRNA效率预测上的可靠性和拟真度。一方面,不同算法模型的数据来源并不相同,有的基于“功能缺失”(loss of function)的方式采集数据[6, 7],有的则是基于高通量的替代性indel(surrogate indel)捕获定量的方法[3, 4, 8]。另一方面,目前基于大数据的机器学习算法曲线也并不饱和。此外,相较于采用更为高级的机器学习算法,增加基础数据的规模和质量能更显著的提高预测模型的准确性和可靠度。


研究内容

从上述角度出发,研究团队采用高通量芯片合成及文库筛选的方法,采集获得了10,592个gRNA产生的高质量替代性indel数据。他们将这些数据与已发表的数据整合起来得到了23,902个基础学习数据。通过这批高质量数据的机器学习输出得到了更精准的gRNA效率预测模型——CRISPRon。通过对多组独立数据的测试评估,他们证实了CRISPRon的预测可靠度要显著优于已有的预测模型,是目前已知最准确的gRNA效率预测模型。同时他们将该模型整合进在线网站,研究人员可通过登录https://rth.dk/resources/crispr/crispron/ 进行基因组信息交互型的gRNA设计和效率预测。

图1.CRISPRon的数据制备采集流程及质控分析结果


作者针对3832个药靶基因设计了12,000条靶向gRNA,随后采用高通量芯片合成的方法,合成寡聚核苷酸文库芯片。研发团队开发更加简易芯片文库构建方法,并通过第3代慢病毒感染方法将该文库稳定整合到表达spCas9蛋白的HEK293T细胞中。随后采用药物筛选的方法对感染细胞进行富集,最后采用靶向PCR扩增和DNA纳米球测序方法,将合成的12,000条位点进行高通量测序分析。最终获得了超过1万多条高质量的CRISPR gRNA基因编辑效率数据。该数据集与目前已经发表的inDelphi预测数据(图1.e),Kim2019和Wang2019的两组独立数据亦有较强的相关性(图1.g)。进一步证明了研究团队开发出来的高通量CRISPR基因编辑效率检测方法的有效性。

图2. CRISPRon的机器学习算法及与其他模型的基于独立数据的测试比较


随后作者将产生的高质量的10,592个数据与Kim 2019数据整合起来,形成超过2万个数据的基础数据库,用于更高质量的机器学习和预测模型的输出(图2.a)。作者将输出得到的CRISPRon V1.0模型与现有的几种模型进行了横向比较,发现在多组独立数据的平行验证结果中,CRISPRon V1.0的效果均好于其他几种模型(图2.b),表明该模型有更佳的精准性。 

图3. CRISPRon的交互设计及效率预测网站页面


作者基于CRISPRon V1.0预测模型构架在线CRISPR gRNA设计网站,并采用基因组交互的可视化方式,清晰明了的展示出基因组中目标靶点的所有可用gRNA及其预测效率。同时,CRISPRon设计软件整合了基因组交互可视方法,方便科研人员查看gRNA所处的基因元件性质,包括基因间,内含子内,外显子内,3/5’UTR等信息。


研究意义

该研究开发的高通量 CRISPR基因编辑技术和更精确深度学习设计方法,为系统性了解CRISPR编辑规律,提高基因编辑效率和促进CRISPR基因治疗提供关键研究工具。为今后科研人员应用CRISPR cas9技术提供了可靠的数据基础,帮助科研人员能更好的进行高效精准的gRNA设计。


相关链接:

1.Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning:https://www.nature.com/articles/s41467-021-23576-0

2.高通量CRISPR基因编辑效率文库:http://www.crispratlas.com/crispr

3.基因CRISPRon深度学习方法开发的CRISPR设计平台:

https://rth.dk/resources/crispr/crispron/  


首发公号:国家基因库大数据平台

参考文献

1. Doench,J.G., et al., Rational design of highlyactive sgRNAs for CRISPR-Cas9-mediated gene inactivation. Nat Biotechnol,2014. 32(12): p. 1262-7.  

2. Doench, J.G., et al.,Optimized sgRNA design to maximizeactivity and minimize off-target effects of CRISPR-Cas9. Nat Biotechnol,2016. 34(2): p. 184-191.  

3. Kim, H.K., et al., SpCas9 activity prediction by DeepSpCas9, adeep learning-based model with high generalization performance. Sci Adv,2019. 5(11): p. eaax9249.  

4. Wang, D., et al., Optimized CRISPR guide RNA design for twohigh-fidelity Cas9 variants by deep learning. Nat Commun, 2019. 10(1): p. 4284.  

5. Shen, M.W., et al., Predictable and precise template-free CRISPRediting of pathogenic variants. Nature, 2018. 563(7733): p. 646-651.  

6. Xu, H., et al., Sequence determinants of improved CRISPRsgRNA design. Genome Res, 2015. 25(8):p. 1147-57.  

7.Hart, T., et al., High-Resolution CRISPR Screens RevealFitness Genes and Genotype-Specific Cancer Liabilities. Cell, 2015. 163(6): p. 1515-26.  

8. Kim,N., et al., Prediction of thesequence-specific cleavage activity of Cas9 variants.NatBiotechnol, 2020. 38(11): p.1328-1336.  

9. Xiang, X., Corsi, G.I., Anthon, C. et al. Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning. Nat Commun 12, 3238 (2021). 

信息来源:“青欧生命科学高等研究院”公众号。

图片源于NC官网和“青欧生命科学高等研究院”公众号。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容