从事生物信息分析已经有10多年了,从大数据和系统生物学视角,先后研究了神经系统疾病,感染系统疾病和如今的肿瘤疾病。当年,二代测序技术刚刚兴起的时候,测个序就可以发文章,做生信分析的学生常被做实验的学生羡慕,毕业真容易。后来,测序成本一降再降,靠刷数据发文章的要求越来越高,杂志社更看重需要大样本量,新的测序技术,如果想冲高的影响因子,还需要一个好的故事对数据进行总结,最好还要有实验验证。现在对生信分析数据科学家的要求越来越高,不光要能玩转编程,还要有很强的领域知识,这样才能够更好的挖掘数据。
回顾过去,在研究工作中,数据清理和分析流程的搭建还真是花费了不少时间。这些耗时的‘脏活累活’对研究的成败非常重要,但是存在重复造轮子的浪费时间的问题。任何自然学科,数据采集技术和对应分析方法发展到特定阶段,都会在特定领域积累大量数据,这些数据如果不能被很好的挖掘并转化为人类知识就是浪费,学科发展也就会没有后劲。疾病的组学数据需要被挖掘,需要被转化,这其中需要大量生物信息分析科学家广泛参与,去共同构建一套标准,一套数据处理规范,避免重复造轮子的‘内卷’,以开源共享精神在一套平台上进行大数据挖掘,实现真正的转化。
以上所言,同行一定会感同身受。我曾经关注过国外开源的Galaxy的平台,这个平台设计中有.软件仓库概念和定义工作流的概念,但好像是围绕着可视化界面做的,搭建个工具也非常繁琐,底层技术也不够灵活。工作中,偶尔接触到极道科技的Bioflow平台,这是一套高性能作业调度系统,支持WDL语言的作业流程,直接调度docker工业,对docker工具和pipeline有很好的用户权限管理。这让我看到一种可能,可以以Bioflow技术平台去构建生信分析未来的开源社区,解决重复造轮子,提高共享,加快数据向产品转化。
以上是我的一些感受,期望遇到同道中人。