文献时间
2015
摘要
DO以疾病的形式来对人类的基因进行注释,对于联系高通量数据与临床数据有很重要的作用。DOSE是一个R包,提供基因和DO术语之间的语义相似度计算,使生物学家能够探索疾病之间的相关性以及从疾病角度探索基因功能。此包提供超几何模型,基因集富集分析,基因类之间的对比等功能。
介绍
通过理解疾病之间,基因和疾病之间的联系,就能够从高通量数据中挖掘出疾病的一些相关分子机制。疾病方面利于早期诊断,药物研发。基因方面利于解决生物问题,以及发现意外的功能。
DO提供了基因在疾病角度一致的注释。为了便于使用着了解疾病的相关知识,DO数据库提供了一个页面浏览器来了解DO术语,疾病和基因注释数据库提供了一个页面接口来比对基因和疾病。DO使用有向非循环结构作为疾病知识语义相关性算法的基础。有很多遗传学工具库例如SML,SimPack,SemMF,OWLSim和Similarity,这些都可以用来计算语义相关性。DOSim是特定为DO设计的,但是作者并没有持续更新。FunDO提供假设性检验来检验一个基因集的DO术语,但是并不允许提供北京基因,因此结果会有偏移。
因此,我们搞了一个DOSE。为了研究基因组和蛋白组的相关性功能,DOSE提供假设性检验和GSEA分析。同时提供了多种可视化的工具。
实施
DOSE使用doSim函数来计算DO术语的语义相似度,使用四种基于信息内容的算法和一种基于图形的算法。
这些算法从GOSemSim继承得来。gengSim通过将基因对应到DO术语上来计算基因之间的语义相似度。DOSE中有四种合并语义相似得分的方法:
- max:所有DO术语对中最高的语义相似得分
- avg:所有DO术语对中平均的语义相似得分
- rcmax:每行(列)的平均语义相似得分中的最大值
- best-match average:每行(列)语义相似得分
DOSE提供解设性检验来评估疾病和差异性基因之间的联系。enrichGO提供背景基因功能。gseAnalyzer函数支持高通量数据的GSEA分析。这些功能可以同来判断生物实验得到的基因是否和特定的疾病相关。多重假设检验的矫正方法包括Bonferroni,Benjamini,False Discovery Rate和q-values。不同条件形成的基因簇与疾病之间的联系可以通过clusterProfiler包进行比较。各种图形化函数可以通过包的文档查看。
结果和讨论
DOSE是通过R语言开发的,并在Bioconductor项目上发布。它提供了5种用于DO和语义相关性计算的算法;用于鉴定与疾病显著相关基因集的假设性检验;GSEA来将各种组学文件转化为对应的疾病内容,以及比对不同基因集之间的疾病相关性的显著性。相关的R脚本在附录文件中。
DOSE使用语义相关性途径和富集分析来方便人们对大基因集的分析。而且,还能够对分析结果进行可视化。