大数据系统发育学的原理、机遇和陷阱(一)

最近几天读文献,读到了一篇2019年Andrew D. Young
Jessica P. Gillung发表在Phylogenomics
关于系统发育学的综述Phylogenomics — principles, opportunities and pitfalls of big‐data phylogenetics,很不错,就翻译一下以供查阅。

1 引言

​ 系统发育基因学是重建地球生命进化史的科学。传统上,系统发育仅使用形态学数据来构建,但是1970年代末期Sanger测序和PCR的引入使遗传信息可以纳入系统发育分析中。早期采用多基因座分析的系统发育研究极大地促进了我们对系统发育历史的了解,并挑战了许多系统发育和动物之间关系的公认观点。自这些开创性研究发表以来,测序和分析技术均在方法学上取得了重大进展,分子系统发育已被广泛接受,以代表强有力的有机关系假说。于2000年代中期开发的下一代测序技术彻底改变了DNA测序技术,并大大降低了每个核苷酸的测序成本,并大大提高了数据生成速度。结果,对于模型生物和非模型生物而言,产生史无前例的序列数据已变得负担得起。这一发展已将分子系统学领域转变为系统基因组学-从多个样本中获得基因组规模的数据可以降低成本(Mardis,2011)

​ 系统发育学流水线可能非常复杂,呈现出大量方法可用于大规模数据集的采集,处理,分析和解释。研究人员还必须克服测序策略设计,直系同源基因座识别,模型选择和系统发育估计的挑战。对于刚进入该领域的研究人员(学生和成熟的科学家)而言,这尤其令人生畏,他们希望深入研究新颖的方法和数据来重建研究组的发展。在这里,我们介绍了系统发育学至关重要的理论和工具的入门级概述,重点是对基因组数据的系统发育分析有用的技术的适当应用。我们专注于系统发育估计的测序技术和统计方法,以及实现这些方法的软件及其在大型分子数据集中的应用。我们还讨论了用于改善系统生物学分析准确性的工具和折衷方法,包括系统发育估计中系统误差的生物学和方法学来源。最后,我们提供了系统发育组学中常用术语的词汇表,这些术语对于那些进入该领域并希望通过该相对较新但快速发展的领域固有的众多方法,分析工具和术语进行分类的人员而言可能很有用。

2 什么是系统发育(基因组)学?

​ “系统发育(基因组)学”一词最初是在预测基因组规模数据的基因功能的背景下引入的(Eisen,1998),随后在系统发育推断的背景下引入(O′Brien&Stanyon,1999)。系统基因组学的存在源于过去二十年来DNA测序技术的进步(Metzker,2010)。它包括分子生物学和进化生物学之间的若干研究领域,并有两个主要目标:(i)推断类群之间的系统发生关系,并深入了解分子进化的机制;(ii)使用多物种系统发育比较来推断DNA或蛋白质序列的推定功能。

​ 传统的Sanger测序研究包括相对较少的基因座,因此受到随机或采样误差的限制。由于在一个或几个基因中只有相对少量的系统信息学特征,这种随机的“噪声”会影响骨干节点的推论,从而可能导致系统树发育不佳或支撑不佳。通过使用大量的序列数据可以成功解决此问题。平均而言,现代基因组学分析利用了整个基因组中数百至数千个基因的优势,比传统的Sanger测序数据集平均要大几个数量级。因此,这些数据集的大小显着降低了随机错误和数据可用性(作为限制因素)的影响,为解决生命树中历来顽强的节点提供了广阔的前景。

​ 高通量测序技术[也称为下一代测序(NGS)](图1)已经产生了数量巨大的基因组规模数据。下一代测序技术与Sanger方法的根本不同之处在于,它们可进行大规模的平行DNA测序,同时以较低的成本同时提供多个样品的超高通量(Mardis,2011)。数以亿计的DNA核苷酸可以并行测序,从而产生更多数量级的数据,并最大限度地减少了Sanger测序所用片段克隆方法的需要(图1)。NGS技术的最新进展以及生物信息学工具的迅速发展,现在使任何规模的研究小组都能为感兴趣的生物生成大量的基因组序列。高通量测序可用于全基因组测序(Lam,2012),全基因组鸟枪测序(也称为RNA测序,RNA-seq或转录组学;Wang,2009),全外显子测序(Rabbani,2014)和减少表示的基因组测序(也称为靶标富集)(例如,Faircloth,2012Lemmon,2012)。

image.png

​ 表1总结了系统发育组学中最常用的测序技术。有关这些不同技术的更多详细信息,请参阅Genohub的《下一代测序入门手册》(https://genohub.com/next-generation-sequencing-handbook/)(另请参阅Ambardar,2016Besser et al.,2018以及其中的参考)。为系统发育遗传学研究选择合适的测序技术会对下游工作流程产生重要影响,尤其是在reads长度方面,因为某些系统发育遗传学技术(例如超保守元素和锚定的杂交富集,讨论后文)中的文库制备需要一个已选择大小的步骤。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342