2019-05-08 CHAPTER 1 What is the Semantic Web?

SMART WEB, DUMB WEB 

Smart web applications

Web充满了智能应用程序,每天都有新的创新。曾经看似未来主义的想法现在已经司空见惯;搜索引擎使匹配看起来深刻和直观;商业网站会以不可思议的方式为你的购买模式提供个性化的聪明建议;地图站点包括关于世界地理的详细信息,它们可以规划路线和测量距离。天空是web站点所能利用的技术的极限。世界上的每一种信息技术都可以在一个网站上使用,其中很多都是。具有新功能的新站点经常出现。但是Web基础设施在使这些应用程序“智能”方面扮演什么角色呢?让Web基础设施足够智能,以包含所有这些技术和更多技术,这是很有吸引力的。基础设施越智能,网络的性能就越智能,对吧?但是,Web基础设施不可能为我们可能在Web上使用的所有(甚至任何)技术提供特定的支持。Web中的智能行为来自Web上的智能应用程序,而不是基础设施。那么,基础设施在使Web智能化方面扮演了什么角色呢?有角色吗?我们在Web上有智能应用程序,所以如果基础设施中没有智能,我们为什么还要讨论增强Web基础设施来构建更智能的Web呢?我们改进Web基础设施的原因是允许智能应用程序发挥其潜力。即使是最有洞察力和最智能的应用程序,也只能根据其可用的数据来判断其是否智能。不一致或矛盾的输入仍然会导致混乱、断开连接、“愚蠢”的结果,即使是非常智能的应用程序。语义Web设计的挑战不在于使Web基础设施尽可能地智能化;它的目的是使基础设施最适合于集成Web上的信息。语义Web没有使数据变得智能,因为智能数据不是语义Web所需要的。语义Web只需要将正确的数据放到正确的位置,智能应用程序就可以完成它们的工作。因此,要问的问题不是“我们如何才能使Web基础设施更智能?”而是“Web基础设施可以提供什么来提高Web数据的一致性和可用性?”

Connected data is smarter data

即使面对智能应用程序,断开连接的数据也会导致愚蠢的行为。但是网络数据并不一定是智能的;这就是应用程序的工作。那么,我们可以从Web应用程序中的数据实际有效地期望什么呢?简而言之,我们想要的数据不会让我们惊讶于不一致,这让我们想说,“这没有意义!”“我们不需要智能网络基础设施,但我们需要一个网络基础设施,让我们能够将数据连接到智能网络应用程序,从而增强整个网络体验。网络似乎更智能,因为智能应用程序可以获得他们需要的数据。

国家公园附近的酒店:两个网站应该对等,更新了酒店位置,其他列出酒店位置的列表网页也应该更新。两个源信息应该同步,不会出现同一个网站在不同页面现实的信息不同造成混淆。

mapping:会议网站和酒店网站,我们希望能够互相自动理解并关联,不应该由人工将信息从一处复制到另一处,输入起点和终点,网站可以找到最短路径。

天文网站:可以持续同步更新。

SEMANTIC DATA

在上述三个例子中,data描述的是信息的表示而不是现实中的实体,能否有一个应用能够提供完整的对象描述以及对象之间的关系,而不只是信息的表示。

方法一:支持关系数据库,从数据库执行查询来生成页面,通过更新数据库来更新页面。困难:对于国家公园和酒店例子,不可能有一个数据库同时驱动两个页面,分属不同单位维护。解决:给应用加一个有组织的查询,协调数据单视图和表示,但无法解决mapping例子的问题。

方法二:用某种语言编写程序保持不同地方的数据更新,如XML。缺点:要求根据不同需求编写代码。

共同趋势:不再将人眼能够看到的数据显示形式作为主要的数据表示,网站不再是页面的集合而是数据的集合,并能够生成页面。

A distributed web of data 

语义网的主要思想是在数据层支持分布式网,而不是表示层。使用全局引用URIs,一个数据项指向另一个,而不是一个页面指向另一个。Semantic modeling Web基础设施提供了一个数据模型,在这个模型中,关于单个实体的信息可以分布在Web上。这种单一的、连贯的应用程序的数据模型并不是存储在应用程序中,而是作为网络基础设施的一部分。档Mongotel发布关于酒店和位置的信息时,并不是仅仅发布一个人眼可见的信息,而是一个分布式的、机器可读的数据描述。这种语义网基础设施用来表示分布式网络数据的数据模型叫做RDF。

这种单一的、分布是的信息模型可以将语义网的基础设施变成更加智能的网络。就像Web应用中的数据驱动一样,语义网基础设施允许数据驱动表示,这样不同的web页面可以为一致的信息体提供视图。

Features of a Semantic Web

Give me a voice .  .  . 

WWW:“A nyone can say A nything about A ny topic

这也意味着网络就像一个数据荒野——充满了有价值的宝藏,但过度生长和纠结。即使是您可以找到的有价值的数据,也可以采用多种形式中的任何一种,以适应它自己的那部分荒野。与大型企业数据中心的情况相反,在大型企业数据中心中,一个数据库管理员以铁腕的方式管理对数据库的任何添加或修改,而Web没有看门人。任何东西都可以在那里生长。分布式数据网络是一个有机的系统,它的贡献来自于所有的资源。对于那些试图理解网络信息的人来说,这可能会让他们抓狂,但正是这种网络上的言论自由让它成为了一种自下而上的草根现象。

. So l may speak!

在文档web的早期,经常会有怀疑这,关于全世界范围内的网上充满不同话题,并且之间通过超链接连接,他们会问,谁来做这些页面?

每个人都可以提供内容,很多人都想通过web来说话。导致了合作的众包,出现了像维基百科、互联网电影数据库

文档Web的发展得益于一个称为网络效应的良性循环。在像Web这样的贡献者网络中,基础设施使任何人都可以发布。这就是网络效应的基础:现在玩游戏的人越多,对新玩家的吸引力就越大。

填充语义Web的大量信息都是从文档Web开始的,有时是以表、电子表格或数据库的形式,有时是像Wikipedia这样有组织的团体工作。谁在做将这些数据转换为RDF以进行分布式访问的工作?在语义Web的早期,几乎没有这样做的动机,而这主要是由对语义Web技术本身感兴趣的先驱者完成的。随着越来越多的数据以RDF形式可用,编写使用这种分布式数据的应用程序变得越来越有用。已经有几个大型的RDF公共数据源可用,包括一个名为dbpedia的RDF Wikipedia图像,以及数量惊人的大量政府数据集。小型零售商使用一种名为RDFa的语义Web格式发布关于其产品的信息。Facebook允许内容管理器使用RDFa和一种名为Open Graph Protocol的格式提供结构化数据。这些数据源的存在使得以链接形式为语义Web生成数据更加有用。语义Web设计允许它从驱动文档Web的相同网络效应中获益。

What about the round-worlders?

网络上的两个人在很多方面可能会有不同意见。我们将用冥王星作为一颗行星的例子来说明它们中的每一个:

They may fundamentally disagree on some topic。他们可能在某些问题上存在根本分歧。虽然国际天文学联合会已经改变了对行星的定义,不再把冥王星包括在内,但并不是所有的天文学俱乐部甚至国家机构都同意这种分类。特别是许多占星家,他们有既得利益考虑冥王星是一个行星,已经决定继续考虑冥王星作为一个行星。在这种情况下,不同的消息来源将完全不一致。

Someone might simply be mistaken. 那些推销描绘九大行星的海报、模型或其他作品的人有充分的理由推迟报告国际天文学联合会的结果,甚至散布有关事态的不确定性。有人可能只是搞错了。Web站点是由人类构建和维护的,因此它们容易受到人为错误的影响。一些网站可能错误地将冥王星列为行星,甚至可能错误地没有将八颗“非矮行星”中的一颗列为行星。有些信息可能已经过时了。世界各地都有许多展示太阳系尺度模型的展览,其中行星的状态简直是刻在石头上的;这些行星将继续把冥王星列为行星,直到有资金为第九颗行星雕刻一个新的描述。网站不是刻在石头上的,但是更新它们是需要努力的;并不是每个人都急于实现这一目标。

语义网常常被认为是让大家同意单一的本体,这不是web要做的工作。语义网不是要让大家都同意,而是要在一个并非所有人都同意的世界中应对问题,并实现某种程度的互操作性。总会有多个本体,就像任何给定主题总会有多个web页面一样。Web是创新的,因为它允许所有这些多视点共存。

To each their own

Web基础设施如何支持这种意见的变化?也就是说,对于同一个话题,两个人怎么能说不同的话呢?有两种方法可以解决这个问题。首先,我们要讨论一下如何在web上下文中做出任何声明。

国际天文学联合会可以用通俗易懂的英语来陈述冥王星,比如“冥王星是一颗矮行星”,但这样的陈述充满了自然语言中固有的歧义和上下文依赖关系。我们认为我们知道“冥王星”指的是什么,但是“矮行星”呢?有没有可能有人对什么是“矮行星”持不同意见?我们怎么能讨论这些事情呢?

在全局web上发表声明的第一个要求是使用全局方法来标识我们正在讨论的实体。我们需要参考?冥王星的概念,是由国际天文学联合会?和?冥王星的概念是由美国联邦的占星家?如果我们甚至希望能够讨论是否这两个组织是由这些名字指的是同一件事。

除了冥王星,另一个天体也被归类为“矮行星”。这个物体有时被称为UB313,有时被称为Xena。我们怎么能说IAU所知的UB313就是它的发现者迈克尔·布朗所说的“Xena”呢?实现此目的的一种方法是让名称的全局仲裁者决定如何引用对象。然后布朗和IAU都可以提到这个“官方”名称,并表示他们使用了一个私人的“昵称”。当然,IAU本身就是一个很好的对象,但是命名对象的过程已经花费了两年多的时间。想出好的、大家都认可的全球品牌并不总是一件容易的事情。

如果没有这样的协议,不同的Web作者将为相同的实际资源选择不同的uri。布朗的Xena是IAU的UB313。当来自这些不同来源的信息在分布式数据网络中组合在一起时,Web基础设施无法知道这些信息是否需要被视为相同的实体。另一方面,我们不能仅仅因为两个uri是不同的,就假定它们引用不同的资源。语义Web的这种特性称为非惟一命名假设;也就是说,我们必须假设(除非被告知其他情况),某些Web资源可能被不同的人使用不同的名称引用。同样重要的是要注意,有时唯一的名称可能很好,但这可能是不可能的。例如,IAU以外的其他组织可能决定不接受这个新的命名法。

There’s always one more

在一个分布式的信息网络中,作为一个规则,我们不能在任何时候假设我们已经看到了网络中的所有信息,甚至不能假设我们知道关于一个主题的所有断言。这在冥王星和UB313的历史上是显而易见的。多年来,行星被定义为“任何特定大小的物体绕太阳运行”,这已经足够说明问题了。“根据当时的信息,很容易就能说太阳周围有九颗行星。但是关于UB313的新信息改变了这一点;如果一颗行星被定义为任何围绕太阳运行的特定大小的天体,那么UB313也必须被认为是一颗行星。当然,在20世纪后期,细心的演讲者谈到了“已知”行星,因为他们知道另一颗行星不仅是可能的,而且是可疑的(所谓的“X行星”,多年来代表未知但可疑的行星)。

语义Web也是如此。不仅可能在任何时候发现新信息(就像太阳系天文学中的情况一样),而且,由于Web的网络化特性,在任何时候都可能无法使用包含一些独特信息的特定服务器。由于这个原因,在语义Web上,我们很少能得出像“有九大行星”这样的结论,因为我们不知道会出现什么新信息。

一般来说,Web的这一方面对我们如何从已有的信息中得出结论有着微妙而深刻的影响。它迫使我们把Web看作一个开放的世界,并使用开放世界的假设来对待它。在这个意义上的开放世界中,我们必须在任何时候假定新的信息可能会出现,我们可能不会得出任何结论,而这些结论依赖于假定在任何一点上可用的信息就是所有可用的信息。

对于许多应用程序,开放世界假设没有影响;如果我们画一张波士顿所有蒙太尔酒店的地图,我们就会得到一张我们当时所知道的所有酒店的地图。Mongotel可能在波士顿拥有更多的酒店(或可能开设一家新酒店),但这并不意味着它已经列出了一些酒店。事实上,对于很多语义Web应用程序,我们可以忽略开放世界的假设,而简单地理解语义应用程序就像任何其他Web页面一样,只是报告一次能够访问的信息。

只有当我们想要基于分布式数据得出结论时,Web的开放性才会成为一个问题。如果我们想将波士顿列入不提供Mongotel服务的城市列表(例如,作为针对Mongotels的新地方的市场研究的一部分),那么我们不能仅仅因为我们没有在波士顿找到Mongotel列表,就假定不存在这样的酒店。

我们将在接下来的章节中看到,语义Web包含与我们在现实世界中看到的所有开放世界的工作方式相对应的特性。如果我们说某个清单是所有蒙哥特人的综合清单,那么我们就可以得出关于失踪蒙哥特人的结论。我们可以用一个匿名的“行星X”来代表一个未知但可预知的实体。这些技术允许我们处理语义Web中的开放世界假设,就像它们处理人类知识的开放世界一样。

语义Web什么时候会出现?它已经有了。在为第二版选择候选示例时,我们必须从各种语义Web部署中进行选择。我们用两章来深入研究这些“野外”部署。“在第9章中,我们将看到美国政府如何以一种灵活的方式分享有关其运营的数据,以及Facebook如何使用语义网将所有网页链接到其网络。第13章展示了语义Web是如何被成千上万的电子商务Web页面所使用,从而使大众市场能够通过它获得信息

SUMMARY

我们在这里概述了Web的各个方面——AAA口号、网络效应、非惟一命名和开放世界假设——已经适用于文档Web。

水以有序的方式流动,这是由河道的结构决定的。这就是模型在语义Web中所扮演的角色。没有模型,数据量是无差别的;无法判断哪些数据可以或应该与其他数据交互。如果没有数据来描述,模型本身就没有意义。然而,将两者结合起来,就形成了一个动态的信息网络,其中数据以有原则的、系统的方式从一个点流向另一个点。这就是语义网的愿景——一个有组织的全球系统,信息以平稳而有序的方式从一个地方流向另一个地方。

Fundamental concepts

The AAA slogan—Anyone can say Anything about Any topic. One of the basic tenets of the Web in general and the Semantic Web in particular. 

Open world/Closed world—A consequence of the AAA slogan is that there could always be something new that someone will say; this means that we must assume that there is always more information that could be known.

Nonunique naming—Since the speakers on the Web won’t necessarily coordinate their naming efforts, the same entity could be known by more than one name. 

The network effect—The property of a web that makes it grow organically. The value of joining in increases with the number of people who have joined, resulting in a virtuous cycle of participation. 

The data wilderness—The condition of most data on the web. It contains valuable information, but there is no guarantee that it will be orderly or readily understandable.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容