注释
如果要用最精简的话来概括生物信息学的工作的话那就是注释、统计与可视化。
大量的生物信息已经由生物学家分门别类收集到各种数据库中,在调用这些信息时,只需要提供所需信息对应的数据库的ID。注释新的实验数据时,也只需把这些已知信息在各种数据库中的ID与实验数据的ID对应上,这叫做ID映射(ID Mapping)。ID映射在数据注释过程中非常重要,以至于成为注释的代名词。
数据库ID之间的映射可以通过编程自动化完成,也可以通过数据库网站的工具进行操作,例如Uniprot数据库网站的工具。芯片处理过程中,经常要将Affymetrix探针组的ID映射到其他数据库ID,这方面的常用工具是NIH网站的DAVID。
统计与可视化
基因是否差异表达、差异表达基因富集到了哪些GO term或者通路上,这些都需要应用统计学方法对其显著性进行分析。统计为后续研究指明了方向,是生物信息学研究的核心。可视化帮助研究员更好的理解统计结果,提供进一步研究的思路和灵感。