Why Evaluate Ontology Technologies? Because It Works!
本体技术很受欢迎并且引起了很多关注,因为它们是实现语义Web的基石。但是,他们是什么,存在多少?一项调查列出了50多位本体编辑(www.xml.com/2002/11/06/ Ontology_Editor_Survey.html)。此外,我可以列出大量的本体技术,例如推理引擎,注释工具,基于本体的爬虫和挖掘工具,更不用说本体本身了。 Ontologies的主要优点是互操作性,因此它应该相当容易,例如,使用一个编辑器创建本体,存储它,然后将其再次上载到另一个编辑器以进行进一步的工作。我建议您花一些时间进行这个实验 - 从列表中随机选择两位编辑并亲自尝试。这样做,您将看到设置实验是一项重大工作。一些社区抓住机会 - 例如,文本检索会议(http://trec.nist.gov)和消息理解会议(www.itl.nist.gov/iaui/894.02/ related_projects / muc) - 并受益。然而,到目前为止,很少有人敢用本体技术进行实验 - 缺乏实验是计算机科学中的普遍现象。正如Walter Tichy所讨论的那样,1位计算机科学家和实践者用各种各样的论点来捍卫缺乏实验的能力。然而,Tichy拒绝了这些借口,并主张实验的有用性。该领域对于本体实验是开放的。在趋势和争议的这一部分中,您将从不同的角度找到陈述。评估本体工具和本体内容之间存在共同的区别。 AsunciónGómez-Pérez使这一区别明确,并侧重于前者。 Walter Daelemanns和Marie-Laure Reinberger专注于后者,Nicola Guarino也是如此。除了这些关于本体的更多技术观点之外,Natalya F. Noy还指出了本体消费者的需求。最后,普通用户将决定他们是否对使用本体技术(根本不是)感到高兴,以及语义Web是否会成为真正的全球成功。只有在本体技术真正起作用时才会发生这种情况。所以,让我们证明他们这样做。
Evaluating Ontology Evaluation
在我们提出将本体技术融入其IT系统的行业建议之前,我们必须考虑两种类型的评估:内容评估和本体技术评估。评估内容是防止应用程序使用不一致,不正确或冗余本体的必要条件。发布一个或多个软件应用程序将在不首先评估它的情况下使用的本体论是不明智的。经过充分评估的本体并不能保证没有问题,但它会使其使用更安全。同样,评估本体技术将简化其与其他软件环境的集成,确保从学术界到工业界的正确技术转移。在本文中,我将探讨两个评估维度,以尝试回答以下问题:
•广泛使用的本体如何(包括Cyc,WordNet和EuroWordNet,标准上层本体,以及DAML + OIL库)在开发期间或者在本体语言中实现后进行评估?
•本体评估方法的稳健性如何?他们评估了哪种类型的本体组件?它们是否独立于用于实现本体的语言?
•本体开发平台如何执行内容评估?评估工具在这些平台上的成熟程度如何?这些工具会检测哪些类型的错误?
•用于评估本体工具的标准是什么?结果是什么?
Ontology evaluation
关于本体内容评估的工作始于1994年.1在过去两年中,本体工程界对这一问题的兴趣不断增长,并扩展到用于构建本体的技术评估。您可以在Ontology Engineering中找到关于评估方法和工具的调查.2本体内容评估有三个主要的基本思想:
•我们应该在整个本体生命周期中评估本体内容。
•本体开发工具应支持整个本体构建过程中的内容评估。
•本体内容评估与实现本体的语言的基础知识表示(KR)范例密切相关。
本体技术评估的主要基本思想是,由于本体技术正在成熟并且很快就会为行业做好准备,我们必须对其进行评估和基准测试以确保顺利转移。评估应考虑几个因素 - 包括互操作性,可扩展性,可导航性和可用性。
The relationship between evaluating ontology tools and ontologies
本体是使用不同的方法和不同的本体构建工具构建的,这些工具可以生成多种语言的本体代码。我们可以从以下四个角度审视评估工作。
内容从内容的角度来看,存在许多库,其中本体是发布的并且是公开可用的(参见侧栏中的一些最着名的库)。没有关于库中可用的本体或者已知的大型本体(例如Cyc,Ontoligua Server上的某些本体和SENSUS)的可用文档的评估。但是,本体和语义Web社区已经使用这些本体来构建许多成功的应用程序。我们需要研究证明,经过充分评估的本体可以提高使用它们的应用程序的性能。
方法从方法论的角度来看,评估本体内容的主要工作发生在Methontology框架2和OntoClean方法中.3 Methontology建议您在开发过程的整个生命周期中评估本体内容。您应该在概念化活动期间执行大部分评估(主要是概念分类中的一致性检查),以防止错误及其在实现中的传播。 OntoClean是一种根据诸如刚性,身份和统一等元属性来清理概念分类法的方法。 Metaproperties可用于删除分类中错误的关系子类。这两种方法都只评估概念分类法 - 它们没有提出评估其他类型组件的具体方法,例如属性,关系和公理。
实现从实现的角度来看,我们可以找到用于构建本体的组件(概念,关系,属性和公理)之间的重要联系和含义;我们用来形式化地表示这些组件的知识表示范例(框架,描述逻辑(DL),一阶逻辑等);以及我们用来实现它们的语言(例如,我们可以实现一个用帧构建的本体,几个帧中的DL或DL语言)。从评估角度来看这很重要,因为不同的KR范例提供了我们可以在内容评估中使用的不同推理机制:
•我们可以使用DL分类器来推导使用包含测试实现的模型中的概念可满足性和一致性。这些测试通常使用tableaux演算和约束系统构建。 •我们可以通过评估新组件(属性,关系和公理)来扩展现有方法,以评估基于框架的概念分类法。
技术从技术角度来看,本体工具开发人员已经收集了在OntoWeb欧洲专题网络SIG3(企业标准本体环境特别兴趣小组)上工作的评估工具的经验。不同的本体工具开发人员还对不同类型的本体工具进行了比较研究,您可以在OntoWeb可交付成果D1.3.4中找到。在这里,我重点介绍这些研究的三个重要发现。首先,最着名的本体开发工具(OILed,OntoEdit,Protégé2000,WebODE和WebOnto)提供约束检查功能。关于分类一致性检查,大多数可以检测循环错误。但是,这种能力还不够,应予以扩展。其次,只有少数特定工具可用于评估本体内容。 ONE-T验证了Ontolingua本体的概念分类; OntoAnalyzer专注于评估本体属性,特别是语言一致性和一致性; ODEClean是一个支持OntoClean方法的WebODE插件; OntoGenerator是一个OntoEdit插件,专注于评估本体工具的性能和可伸缩性。最后,不同的团体或组织可能会开发本体,并且本体可能以不同的语言提供。在语义Web上下文中,一些RDF Schema,DAML + OIL和OWL检查器,验证器和解析器存在,并且几个本体平台可以导入RDF Schema,DAML + OIL和OWL本体。正如同事和我所证明的那样,5个解析器(验证RDF解析器,RDF验证服务,DAML验证器和DAML + OIL本体检查器)不会检测以这些语言实现的本体中的分类错误。因此,如果本体平台导入此类本体,平台是否可以检测到此类问题?同一项研究表明,大多数本体平台在导入这些本体之前只检测概念分类中的一些错误。因此,我们必须开发依赖于语言的评估工具,这些工具可以评估传统(Ontolingua,OCML,Flogic等)和语义Web(RDF,RDF Schema,DAML + OIL和OWL)语言中的本体。每个工具都必须考虑每种语言的功能才能执行此评估。
Evaluating ontology technology
然而,SIG3的主要目标不是评估本体工具如何评估本体,而是评估本体技术以更好地评估其向行业的转移。实际上,该技术评估使用的维度包括
•本体编辑的基础KR模型的表现力。目标是分析每个工具中可以表示哪些知识组件以及每个工具如何表示不同组件。由OntoWeb赞助的第一个EON2002研讨会(http://km.aifb.uni-karlsruhe.de/eon2002)专注于这一方面。
•每个工具的本体导出导入功能的质量。目标是分析这些功能的质量如何影响本体工具交换其本体和互操作的方式。第二次EON2003研讨会的实验侧重于这个维度(http://km.aifb.uni-karlsruhe.de/ws/eon2003)。
在EON2002和EON2003上进行的实验表明,具有相似基础知识模型的工具在知识交换过程中保留了更多知识,因此更具互操作性。这些实验也表明我们可以使用RDF Schema作为本体工具之间的通用交换格式。但是,由于RDF Schema的表达力低于大多数这些工具提供的知识模型,因此在转换过程中会丢失大量知识。这些工具要么不导出本体中表示的所有知识,要么生成特殊的非标准RDF Schema句子以保留循环变换中的知识,这使得其他工具难以“理解”它们。未来的实验将集中在其他方面,例如
•可伸缩性:分析在管理具有数千个组件的大型本体时,不同的本体构建平台如何扩展,以及打开和保存本体,创建,更新或删除本体组件,计算简单或复杂查询等所需的时间。
•可导航性:分析本体工具如何允许导航大型本体 - 搜索组件(图形,基于文本等)是多么容易,用新的扩展本体
组件,获取本体的一小部分,等等。
•可用性:分析用户界面的灵活性和一致性,用户的学习时间,稳定性,帮助系统等。
欧盟资助的知识网络卓越网将跟进OntoWeb评估计划,以确保本体技术转移到行业市场,同时考虑到用例和工业场景中确定的工业需求。
Acknowledgments
卓越知识网络(FP6-507482),OntoWeb主题网络(IST-2000-29243),Esperonto项目(IST2001-34373)和ContentWeb项目(TIC2001-2745)都部分支持这项工作。 感谢ÓscarCorcho和Carmen Suarez de Figueroa Baonza的评论
References
1. A. Gómez-Pérez, Some Ideas and Examples to Evaluate Ontologies,tech. report KSL-9465,Knowledge System Laboratory,Stanford Univ., 1994.
2. A. Gómez-Pérez, M. Fernández-López, and O. Corcho, Ontological Engineering: With Examples from the Areas of Knowledge Management,e-Commerce and the Semantic Web, Springer-Verlag, Nov. 2003.
3. C. Welty and N. Guarino,“Supporting Ontological Analysis of Taxonomic Relationships,”Data and Knowledge Eng.,vol. 39,no. 1, 2001, pp. 51–74.
4. A. Gómez-Pérez,A Survey on Ontology Tools, OntoWeb deliverable D1.3.2002; http:// ontoweb.aifb.uni-karlsruhe.de/About/ Deliverables/D13_v1-0.zip.
5. A. Gómez-Pérez and M.C. Suárez-Figueroa, “Results of Taxonomic Evaluation of RDF Schema and DAML+OIL Ontologies Using RDF Schema and DAML+OIL Validation Tools and Ontology Platforms Import Services,” CEUR Workshop Proc. (CEUR-WS.org), vol. 87,2003.
Shallow Text Understanding for Ontology Content Evaluation
Walter Daelemans and Marie-Laure Reinberger, University of Antwerp
如果本体论确实是“对共享概念化的正式,明确的规范”(www.ktweb.org),那么我们应该关注的问题是“由谁共享,为了什么目的,以及持续多长时间?”一如既往在知识表示研究的历史中,过多的努力被用于开发许多“好的”技术,使本体形式正式和明确。相对较少强调开发用于管理内容收集和维护的技术,并且在本体的情况下,关于表示本体确实代表一致同意的概念而不仅仅是一个人的想法的技术。我们应该指导对本体语义的评估,而不仅仅是它们的语法。本体具有任务依赖性和静态性质,并且大多数是由对可能的替代概念化的观点有限的人创建的。这意味着在知识管理和语义网等领域进行大规模开发和维护存在巨大障碍。为了解决这个问题,本体研究人员应该关注基于半自动文本分析的更新,丰富,过滤和本体评估。
Information extraction techniques
很长一段时间,使用自然语言处理工具来强大地分析来自任何领域和任何类型的文本的想法都是虚构的 - 如果你想深入理解文本意义,它仍然存在。然而,随着将统计学和机器学习技术引入语言技术,许多语言现在可以访问工具,以便识别和分析句子的主要成分及其最重要的关系(主题,对象,时间,位置等)。这些工具还可以帮助检测概念(例如,不仅是公司名称,人名等实例,还有非常具体的概念,如蛋白质名称或疾病)。这些技术称为信息提取,命名实体识别和浅层解析,它们通常以相当高的精度和召回水平(80%到90%)执行。对于文本中的每个句子,您可以通过这种方式提取主要概念及其(语法)关系。结合自然语言处理的标准模式匹配和机器学习技术,这些技术还可以让您提取概念和概念之间的关系 - 简而言之,它们可以让您从文本中提取本体知识。尽管研究人员已经探索过这种类型的工作已有一段时间了(至少从本世纪初开始1),但直到最近,在这一领域工作的人才变得更加有组织。例如,最近欧盟卓越网络OntoWeb的一个特殊利益集团致力于这一主题(www.ontoweb.org)。您可以在2004年欧洲人工智能会议研讨会上看到该方法日益成熟,该研讨会将侧重于开发可靠的定量方法,以评估提取的本体知识的质量,并客观地比较不同的方法。一旦从文本中提取可靠的本体,就可以创建大规模的半自动本体内容。在典型的设置中,人类本体工程师将从手工制作的初始本体论开始,收集有关所描述概念的文本(来自Web,公司内部文档库等),并将本体提取工具应用于此文本材料。这将揭示关于概念关系(本体评估)的相互矛盾的观点,允许用其他实例和关系(本体扩展)填充初始本体,并且及时地允许跟踪对本体的改变。
The Ontobasis project
Ontobasis是比利时IWT资助的项目2,由布鲁塞尔和安特卫普(http://wise.vub.ac.be/ontobasis)组成。 我们将重点放在安特卫普完成的文本工作中的本体提取。 我们的研究重点是使用浅解析器3,它可以有效地分析无限制的英语文本,并将其应用于提取本体知识。 例如,浅解析器将分析诸如的句子
The patients followed a healthy diet, and 20% took a high level of physical exercise. 。
进入一个结构(从实际输出简化),如(Subject [The patients]) (Verb [followed]) (Object [a healthy diet]) and (Subject (Percentage [20%])) (Verb [took]) (Object [a high level]) (PP [of physical exercise]).
Extracting word clusters
我们使用的浅解析器足以有效地分析每秒数千个单词,并且我们使用它来分析与我们构建本体的域相关的文本语料库。在Ontobasis项目中,其中一个领域是Medline抽象语言(生物医学语言)。任何浅层解析器都具有相对较高的错误率,因此分析将包含多个错误。然而,这不一定是问题,因为诸如从文本提取本体关系的应用允许在足够大的语料库可用时进行频率过滤。通过仅考虑语料库中足够频繁的关系,我们可以排除由于浅解析器的随机错误导致的虚假关系。第一步是选择一组与域相关的术语。我们可以手动执行此操作,也可以使用标准术语提取技术自动分析有关感兴趣域的文档。通常,这些技术基于统计分析(TF-IDF)或多字词的互信息,有时与语言模式匹配相结合。一旦我们有了这样一组术语,我们就会从浅层解析的语料库中提取它们的所有出现。然后我们确定他们在主语,宾语或其他句法关系中输入的动词以及频率。对此的语言动机是,一个术语的含义很大程度上隐含在与其他术语的关系中。与其他术语具有相似句法关系的术语在语义上是相关的。使用聚类技术,我们可以使用这些语义相似性或语义依赖性将术语分组到类中,从而提供可用于扩展初始本体或从头创建一个术语的术语。以下是从医学语料库中提取的一些示例术语群集:
•肝炎,感染,疾病,病例,综合征
•肝脏,移植,化疗,治疗
•面罩,面罩,手套,防护眼镜
Evaluating and extending ontologies
对这个聚类阶段的输出进行客观定量评估并不容易。除了对一般质量的印象主义观点之外,更复杂的定量评估是困难的。显而易见的可能性 - 例如将提取的本体与现有的本体在回忆,重叠,精度等的计算方面进行比较 - 给出了一些指示但是有限,因为我们的方法无论如何都旨在评估和扩展现有的本体。在评估基于文本的本体学习方面的更多进展可能来自在手动分析语料库的基础上仔细构建黄金标准本体。在语义相关的类中聚类术语只是自动提取本体知识的第一步。鉴于我们有一些本体知识 - 例如,感染是可传递的 - 我们可以将通过聚类构建的类与模式匹配规则相结合,从而大大扩展本体中关系的数量。例如,如果我们看到“肝炎”和“疾病”与群集中的“感染”有关,我们可以假设肝炎和疾病一般也是可传播的。为了演示,我们使用模式匹配来提取介词“of”的以下关系:
[recurrence transmission] of [infection hepatitis_B_virus viral_infection HCV hepatitis_B HCV_infection disease HBV HBV_infection viral_hepatitis]
通过调整模式匹配到本体关系,如部分 - 整体关系和专业化 - 泛化关系,我们可以很容易地扩展本体。但是,在聚类步骤(您可以将其解释为扩展或评估概念的扩展)和模式匹配步骤(您可以将其解释为使用所选关系填充本体)中,人工干预对于评估系统至关重要提案。与纯手工本体开发的区别在于,识别和评估所提出的本体结构比发明本体结构更容易,更完整,更快。语言技术工具已达到如此高的准确性和效率水平,现在可以自动分析大量文本。像该领域的大多数研究人员一样,我们相信这种方法将解决本体内容创建,适应和评估中的一些难题,但总是需要人工交互。
References
1. A. Gómez-Pérez and D. Manzano-Macho, eds., Deliverable 1.5: A Survey of Ontology Learning Methods and Tools,OntoWeb deliverable, 2003; http://ontoweb.aifb.uni-karl sruhe.de/Members/ruben/Deliverable%201.5.
2. M.-L. Reinberger et al.,“Mining for Lexons: Applying Unsupervised Learning Methods to Create Ontology Bases,” On the Move to Meaningful Internet Systems 2003: CoopIS, DOA, and ODBASE, LNCS 2888, SpringerVerlag, 2003, pp. 803–819.
3. W. Daelemans,S. Buchholz,and J. Veenstra, “Memory-Based Shallow Parsing,” Proc. Computational Natural Language Learning (CoNLL-99),Assoc. for Computational Linguistics,1999,pp. 53–60; http://ilk.uvt.nl/cgi -bin/tstchunk/demo.pl.
Toward a Formal Evaluation of Ontology Quality
与每个软件产品一样,本体需要适当的质量控制才能在实际应用中有效部署。不幸的是,使它们适应评估,满足软件工程开发的质量和质量执行程序是行不通的。本体的本质与一段代码的本质非常不同。我们无法根据给定流程规范的正确性来评估本体,例如,使用I / O函数进行描述。实际上,本体不是软件过程 - 而是属于数据模型类。然而,令人遗憾的是,数据模型质量的当前标准通常是临时性的,这取决于其利益相关者的需求,而对于对不断变化的业务实践具有灵活性的良好,稳定数据模型的标准几乎没有一致意见。另一方面,本体应该可以在不同的社区和应用程序之间共享 - 至少在其更加雄心勃勃的应用程序视角中,例如语义Web。在过去,一些研究人员已经提出了评估我们如何表示本体的标准。然而,我认为最迫切的需求是开发一般的,严格的方法来评估本体的主要目的:指定给定词汇的预期含义。
Ontologies and conceptualizations
在这篇文章中,我使用了本体的通用定义 - 即“概念化的规范”,2我已经在其他地方讨论并形式化。从我的分析中得出的一个关键观察是,本体只是概念化的近似规范。 。因此,根据这种近似程度来评估它们似乎是合适的。然而,这个想法并不是那么明显,因为本体论和概念化之间的关系相当微妙,需要一些技术上的澄清。考虑图1,它基于我在之前的工作中提出的图片.3对于这个讨论,让我们假设对概念化是什么的非正式,直观的理解:一组概念关系,旨在作为代理人感知的系统方式和组织某个现实领域,从这种现实的各种实际情况中抽象出来(所谓的情境或可能的世界)。例如,概念关系“大于”属于我的概念化,因为我知道如何在各种情况下识别其实例。根据这种直觉,我提出用Montague的语义正式描述概念化,作为三重C = <D,W,ℜ>,其中D是一组相关实体,W是一组可能的事态(或者世界)对应于这些实体的相互安排,并且ℜ是一组概念关系,被定义为从W到D的适当关系的函数。如果我们想谈论概念化Cusing逻辑语言L,我们必须指定一个特定的首选对非逻辑符号(谓词和常量)的解释 - 也就是说,我们需要通过合适的解释函数I来提交Cby。图1显示了Lto Cas对K = <C,I>的承诺。考虑相对于域D的L模型的集合MD(L);一般来说,这是巨大的(尽管D是有限的有限)。但是,我们只想关注目标模型Kinduces,即集合IK。本体的角色出现在这里。如图所示,本体论只是一种逻辑理论,其设计方式使得其模型的集合OK相对于概念化Cunder承诺K是对预期模型的集合IK的合适近似。换句话说,本体的目的是排除非预期的模型 - 灰色椭圆形以外的那些模型(例如,那些让某些东西“大于”本身的模型)。
Coverage and precision
通常,作为本体公理的结果,集合OK将适当地覆盖IK。 但总的来说,我们有五种可能的情况:
情况1不是很有趣; 在这种情况下,我们会说本体论在特定的概念化方面是完全“错误的”。 情况2(显然)是理想情况,几乎不可能达到。 然而,我们应该注意到,即使在这种情况下,我们也不能总是说本体完全捕获了概念化,因为概念化中的多个世界可能只对应于一个本体模型。 这个问题必然要区分“世界”(或事态)的本体论概念和“模型”的逻辑概念,但我不会在此讨论。 图2显示了情况3到5,并介绍了我用于正式评估本体的前两个维度:覆盖率和精度。 假设域Dis有限(这意味着图中的所有模型集都是有限的),我们可以将它们定义为
我们可以立即认识到这两个维度类似于信息检索中使用的维度。不同之处在于,在我们的情况下,“覆盖”这个术语似乎比“召回”更合适。为了强调类比,想象一个本体作为一种设备,其目的是检索预期的模型。图2描绘了一些表现出不同覆盖度和精度的典型情况。显然,覆盖对于本体来说很重要;如果它低于100%,则不会捕获某些预期的模型。精度通常不那么重要,特别是如果某个用户社区事先知道本体所描述的术语的含义。然而,在需要检查两个概念是否不相交的情况下,不精确的本体会产生严重的问题。考虑图3,您可以通过两种方式阅读。在第一个读数中,假设IK(A)和IK(B)表示两个概念(一元谓词)A和B的所有可能实例的集合,即它们在承诺K下可能的预期解释。在此例如,这两个概念与假设不相交。然而,如果本体Ois(或多或少)不精确,则可能允许两个概念的扩展重叠,如在本示例中那样。因此,从逻辑上讲,本体O“相信”A和B可以有共同的实例。如果你想要调整具有不同承诺的不精确本体,比如KA和KB,情况会更糟。在这种情况下,您可以像前面的图中一样阅读图3。假设外圆表示某种语言L的所有可能模型的集合,而O(A)和O(B)是相对于相同语言L的两个不同(相当不精确)本体的模型集。由于它们的不精确,两个本体可能有一些共同的模型,表明他们对某些东西达成一致,但这可能是一个错误的协议,因为没有涉及预期的模型。因此,我们可能会冒险依赖这两种本体的语法互操作性,对它们定义的术语的实际预期含义没有任何保证。这就是为什么我认为所谓的轻量级本体通常不能保证互操作性,以及为什么我们必须发展基于“深层”本体论原理的公理理论。
The role of examples and counterexamples
我通过测量它们与参考概念化的“距离”来介绍评估和比较本体的新正式框架的基础。这是一项正在进行的工作,获得定量指标的机会仅限于有限域的情况。然而,即使在无限域的情况下,我们也可以通过关注有限的示例列表和反例来获得有趣的结果,这样我们就可以至少对此进行评估。这实际上肯定是重要的。例如,这些示例可以以便于由领域专家团队(非本体专家)进行即时,可视验证的形式进行编码,并且可以通过“能力问题”4来补充以表征预期的推理任务。我正在考虑带注释的多媒体文档,类似于儿童使用的图解词典的复杂版本。毕竟,这些是传达词语意图的方式。一方面分析这些例子和反例之间的对应关系,另一方面分析预期和非预期模型之间的对应关系应该不难。这样,我们应该能够获得与我提出的标准相对应的定量指标,并评估,比较甚至验证与验证示例列表相关的本体。
Acknowledgments
OntoWeb主题网络(IST-200029243)和wonderWeb项目(IST-200133052)部分支持这项工作
References
1. A. Gómez-Pérez, M. Fernandez-Lopez, and O. Corcho, Ontological Engineering, Springer-Verlag, 2004.
2. T.R. Gruber, “Toward Principles for the Design of Ontologies Used for Knowledge Sharing,”Int’l J. Human and Computer Studies, vol. 43, nos. 5–6, 1995, pp. 907–928.
3. N. Guarino, “Formal Ontology in Information Systems,”Proc. Int’l Formal Ontology in Information Systems (FOIS 98), IOS Press, 1998, pp. 3–15.
4. M. Uschold and M. Gruninger, “Ontologies: Principles, Methods, and Applications,” Knowledge Eng. Rev.,vol. 11,no. 2,1996,pp. 93–155.
Evaluation by Ontology Consumers
当我们谈论今天评估本体时,我们通常想到的是对本体论“好”的某种“客观”评价。诸如OntoClean1之类的方法有助于验证关于一般本体论概念(如本质,身份和联合)的分类关系。其他人建议在推理的一致性,缺乏冗余,缺乏错误等方面评估本体的完整性,一致性和正确性.2比较和评估本体3的另一个现有推力是提供有关其内在属性的信息,其范围包括作为作者的名字或本体论的可访问性和价格,以及用于其发展的形式和方法。此外,许多人认为评估本体的唯一真正方法是在应用程序中使用它并评估应用程序的性能。虽然所有这些评估类型或比较方法都是必要的,但没有一个对本体消费者有帮助,他们需要发现哪些本体存在,更重要的是哪些本体适合他们手头的任务。根据某些特定的正式标准了解本体是否正确可能有助于我们最终决定使用本体,但是对于它是否有益于特定目的或任务将没有任何帮助。随着本体成为语义Web的支柱并在许多学科(例如生物医学信息学)中得到广泛使用,他们的主要消费者将是必须决定将哪一个用于他们的项目的开发人员。正是这些经常天真的本体论消费者迫切需要帮助来确定可用的东西以及它们对它们有多好。本体论变得流行的一个原因是,作为共享的,不同代理使用的域的共享描述,它们承诺促进软件资源之间的互操作 - 例如,语义Web成功的关键要求。换句话说,如果我正在开发语义Web服务并选择重用本体来支持它而不是创建新的本体,我可以“免费”使用相同的本体与其他人进行互操作。此外,我节省了时间和开发本体所需的资金,并获得使用其他人已经测试过的本体的好处。不幸的是,随着现有本体和本体库的数量增加,重用本体变得更难而不是更容易。今天几乎没有任何东西可以帮助有抱负的本体消费者发现哪些现有本体非常适合他或她的任务,其他本体已成功用于类似任务,等等。我们不仅需要从一些通用观点(我们已经在某种程度上已经具有这种观点)客观地评估本体的系统,而且还需要本体消费者发现和评估本体的实用方法。诸如概念数量甚至本体论的完整正式正确性等信息可能不是此任务中最重要的标准(尽管通常最容易获得)。几种技术可能有所帮助如果我们想要使用本体,并且更重要的是,重用是常见的,我们必须专注于开发这些技术和服务。
Ontology summarization
为了决定是否买书,我们阅读了书夹上的简介;为了确定论文是否与我们的工作相关,我们阅读它的摘要。为了确定特定的本体是否符合我们的应用程序的要求,我们需要一些摘要或总结这个本体所涵盖的内容。这样的摘要可能包括本体类层次结构中的几个顶级 - 可能是这些顶级概念的图形表示以及它们之间的链接。我们可以自动生成这些顶级快照,或者让本体作者将它们作为本体的元数据包含在内。摘要还可以包括本体的中心概念 - 具有最大链接数量的内容。更有趣的是,我们可以尝试与Google的PageRank类似的指标:如果其他重要概念与其相关联,则该概念更为重要。此计算可以考虑特定链接的语义(例如,为子类 - 超类链接提供比属性链接更低的值)或排除某些链接或属性。通过试验这些措施,我们可以发现哪些措施产生了用户认为重要的概念。在探索和理解本体时,中心概念通常比其类层次结构的顶层更好。
Epinions for ontologies
除了阅读书籍以确定我们是否想要购买它之外,我们经常阅读书评和其他读者对该书的评论。同样,在选择电影或消费产品(如咖啡机或滑雪板)时,我们会使用网络来寻找他人的意见。您可能已访问过互联网电影数据库(www.imdb.com)或亚马逊网站等网站进行评论。类似的本体网络将有助于指导我们的本体 - 消费者朋友找到适合他或她的项目的特定本体。评论不仅应包括本体的定性评估(它是否已经很好地开发了?它是否有重大漏洞?它是否正确?)而且还有,也许更重要的是经验报告。假设一个人对我本人普遍信任的本体论的评论成功地使用了特定的葡萄酒本体来开发一种将葡萄酒与食物配对的代理商。这个受信任的人成功使用的报告强烈告诉我,我可以使用这个本体作为我的代理的一个组成部分,用于创建包含每个课程建议的葡萄酒的餐馆菜单。事实上,一些社区开始组织这样的门户网站(例如,参见obo.sourceforge.net)。 Epinions(www.epinions.com)采用消费者的概念,进一步提供产品评论,让其用户建立信任网络 - 评论者的网络,他们信任的评论和评级。让本体消费者创建自己的信任网也可能非常有帮助。有些人可能对本体的形式属性更感兴趣,他们的网络将包括特别关注形式方面的评论者。其他人可能更关心直观和简单的概念组织,因此在他们的信任网中有一组不同的评论者。你可以说,与咖啡机相比,更少的消费者需要本体论,而且我们永远不会获得大量的评论来使这种服务变得有价值。然而,谷歌搜索“本体论”产生了超过一百万次点击,而且大多数都是指本体论的计算机科学概念。添加到伪装成术语,标准词汇表或XML模式的本体,我们可能会有临界质量。
Views and customization
为了正确评估本体,用户可能需要查看本体的视图,该视图考虑了他们的专业知识,观点,所需的粒度级别,或者他们感兴趣的本体所涵盖的域的子集。例如,如果我们正在开发研究乳腺癌的应用程序,我们可能希望使用标准的解剖学本体,例如解剖学的基础模型。然而,FMA是庞大而复杂的(撰写本文时有67,000个不同的概念)。我们可能会选择仅使用包含乳房和相关器官的一部分。类似地,虽然FMA采用基于结构的解剖学视图并且被开发为一般参考模型,但放射科医师或编写医学模拟的人可能使用不同的术语或以不同的方式查看某些关系。如果我们可以让本体开发人员使用关于这些术语和关系应该出现在哪些视角以及如何呈现或命名它们的信息来注释概念和关系,我们将能够自动呈现这些不同的视角。类似地,本体开发人员可能希望指出某些概念或关系应仅显示给自称为专家的用户(为新手提供更简单的修剪视图)。对于本体消费者而言,评估较小的本体通常更容易,只考虑与他或她感兴趣的概念相关的概念,而不是评估大的一般参考资源。
Looking forward
当然,即使我们成功地创建了可用的,全面的工具和服务,让本体消费者找到正确的本体并重用它们而不是自己开发,我们也不会完全消除类似或重叠本体的扩散。有人总是希望使用他或她自己的本体,而不是重用现有的本体,尽管有共享和互操作的好处。这种方法可能有充分的理由,从机构(仅使用专有信息的要求)到实际(需要与遗留系统互操作),以及许多其他方法。然而,我们可以做的是减少开发人员创建自己的本体的案例数量,因为他们无法找到并正确评估现有的本体。我只讨论了一些可以帮助本体消费者(而不是本体开发人员和专家)评估现有本体的方法。必须存在更多的理由,我希望这个领域在不久的将来会得到本体和语义Web研究人员的更多关注。
References
1. N. Guarino and C. Welty, “Evaluating Ontological Decisions with OntoClean,” Comm. ACM, vol. 45, no. 2, 2002, pp. 61–65.
2. A. Gómez-Pérez,“Ontology Evaluation,”Handbook on Ontologies,S. Staab and R. Studer,eds., Springer-Verlag,2003,pp. 251–274.
3. J. Arpírez et al., “Reference Ontology and (ONTO)2Agent: The Ontology Yellow Pages,”Knowledge and Information Systems, vol. 2, no. 4, 2000, pp. 387–412.