泛基因组的定义
首先,为了让行外或者感兴趣的朋友知道什么是泛基因组,请大家参考我之前写的一篇文章。这篇文章详细介绍了泛基因组的相关知识,能够快速让你入门这个研究话题。
泛基因组近年来的研究
物种 | 泛基因组建立方法 | 来源 | 期刊 |
---|---|---|---|
Cultivated and wild rice | De novo assembly | Zhao, Feng et al. 2018 | Nature genetics |
Brachypodim distachyon | De novo assembly | Gordon, Contreras-Moreira et al. 2017 | Nature communication |
Hexaploid bread wheat | Itrearitve mapping and assembly | Montenegro, Golicz et al. 2017 | PBJ |
Brassica oleracea | Itrearitve mapping and assembly | Golicz, Bayer et al. 2016 | Nature Communication |
Brassica napus | Itrearitve mapping and assembly | Hurgobin, Golicz et al. 2017 | PBJ |
Wild type soybean (Glycine soja) | De novo assembly | Li, Zhou et al. 2014 | Nature Biotechonology |
Maize | Novel Transcript Assembly | Hirsch, Foerster et al. 2014 | The plant cwell |
心得分享
由于一般泛基因组的数据分析都没有表观的数据,往往找到了一些novel的基因之后,就缺少一些实质表观的验证,所以火爆程度相对CRISPR,single cell 其他热点来说还是比较温火。
但总体来说,泛基因组都基本可以发到至少6分以上甚至像最近接近40分的期刊。在通读了最近两篇Nature的文章,我根据个人经验,总结这两篇文章的一些亮点 (Gordon, Contreras-Moreira et al. 2017, Zhao, Feng et al. 2018)。
- 验证! 再说一次验证!
我发现这两篇nature文章都有一个共同的特点,处处都在验证。从一开始的de novo assembly结果,作者就将自己使用的assembly泛基因组的方法,用于assembly ref raw data。通过对比,自己assembly出来的 ref 和 已经发表的 ref genome 的assembly,rice的那篇文章更加有用到BAC对其中一个有代表性的line进行验证,从而证明所用的assembly的结果是精准的。然后到annotation,通过对比自己做出来的gene annotation 和 已经发表的gene annotation。再加上比对不同lines之前annotation的结果,验证所用annotation方法的准确率。然后同样到PAV 和 SNP calling的结果,都是环环相接,结果和认证都不漏。
2.寻找独特的切入点
这点我相信是每一篇文章最重要的一部分。rice 那篇泛基因组,通过独特的视角,对rice 的domestication 和 introgression 进行研究。然后对某些特别的SNPs进行深入的挖掘,这都是为什么这篇文章可以脱颖而出的原因。然后就是Brachypodim distachyon这文章。其亮点就是它不单对non-TE genes进行了研究,也从TE 的角度解析了为啥Brachypodim distachyon 会有独特的PAV pattern。我觉得这点可以值得所有同行学习。repeat sequences 中TE等片段确实值得再深入发掘。然后这篇文章也试图将core gene 和variable gene 进行 更加深层的分组。确实可以提供更加深层的视角研究variable gene,但个人感觉也有点将问题复杂化了一些。
- core gene clusters contained all lines, including the softcore gene clusters contained 53–55 lines (95–98%); shell gene clusters contained 3–52 lines (5–94%); and cloud gene clusters contained 1 or 2 lines (2–5%)
总结
有效的对每一个小步骤反复认证是一篇好的泛基因组文章的前提,要不然其他人会质问你的结果的可信度,究竟你的结果是真的还是因为使用工具的异同造成的。另外,在泛基因组pipeline比较成熟的情况下,寻找有意义感兴趣的生物学问题,对你的结果进行解析也是发好文章成功的关键。