2022-09-20 关于Galaxy

Galaxy是一个基于FAIR(可发现、可访问、可互作、可重用)原则的生物医药相关的元数据(metadata)服务平台,目前集合了生物学、医学、化学、生态学等等领域的各类数据。
简单来说就是一个生物信息学分析平台。
Galaxy拥有庞大的用户社区,众多科研人员共享科学发现并贡献诸多的开源工具。

Galaxy解决的问题:关于分析结果的可重复性

做过数据分析的人都知道,分析过程一般都是在相对独立的环境下进行的,需要自己配置服务器环境并下载各类软件包。拿到数据后,进行分析调试的过程中,一般都存在着诸多复杂的变化因素,比如工具的版本、参考数据、外部数据库以及算法中的随机过程等等,要详细的记录并重复分析流程十分困难。

目前为止,在大多数涉及到数据分析的文章中,仅仅会提到使用的软件、版本以及部分关键的参数。鉴于操作过程中的复杂因素,有时甚至作者重复自己的分析时,结果也会和先前有所差异。

这就导致了诸多文章中的分析结果无法重复,给知识共享带来困难。

说的严重一点,一些学术不端的人可以利用这个技术盲区,对数据进行各种主观的处理来强行支撑自己的结论,甚至用以发表文章。
这些分析结果的可靠性(即可重复性)存在争议,使得这些成果的共享存在风险。
最坏的情况是,其他研究者错误的围绕这些结果开展课题,可能造成巨大的资源浪费。

Galaxy通过集成数据下载、管理以及各类分析软件的交互式web操作界面来进行集成数据分析,这种方式可以详细记录分析过程,使这些分析结果得以轻松复现。分析过程可以提取为workflow,这样当需要再次用另一批数据进行同样的分析时,采用相同的分析流程(可能需要调整参数)。

此处引用官网的功能描述:

  • Galaxy provides an easy-to-use graphical user interface for often complex command-line tools
  • Galaxy keeps a full record of your analysis in a history
  • Workflows enable you to repeat your analysis on different data
  • Galaxy can connect to external sources for data import and visualization purposes
  • Galaxy provides ways to share your results and methods with others
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容