生物信息学家的工作是通过一系列专业的技能与工具来通过大量数据得到深刻的生物学理解。
自从08年第二代测序技术的出现,测序的成本呈指数级下降,每天大量的数据被生成。如今数据分析不仅仅是针对拥有的数据,大量被共享的数据里面也藏着许多未解决的问题。另外,摩尔定律告诉我们,计算机的计算能力随着时间也是指数级上升的。能够掌握高水平的大数据分析能力变得愈发重要。
数据分析能力到底是什么呢?个人感觉是一种“内功”。拿到数据后自然而然地就可以采用一系列的程序展示数据隐含的细节,讲述数据背后的故事。
飞速发展的同时也带来了挑战,当前数据分析存在2个重要的问题。
- 没有统一的标准,例如对于人类基因组的分析没有办法应用到其它物种;
- 另外一个问题是软件的开发与维护跟不上时代,不统一的数据格式,软件之间复杂的交互与数据的不同的评估方式带来了一系列的问题。
针对这一现象作者提出了提高数据分析的可重复性与鲁棒性的概念。
生物信息学数据分析的可重复性差是一个非常值得注意的问题,这个问题由外部环境与个人习惯共同导致。外部环境的具体例子可以是人类基因组数据版本一直在更新,以及很多软件也不断地改进。除此之外,一个常规的处理方式也可能由大量的软件处理不同的步骤,不同的参数组合就有可能导致不同的结果。对于自身来说,我们的数据管理方式与习惯可能就比较随意,我们所有的代码可能也只是一次性的,我们犯的错误可能是难以察觉的。
“non-reproducible single occurrences are of no significance to science” (1959)
——卡尔·波普尔
因此创造可重复性的数据分析是拥有科学素养重要体现。