观点 - 论语义网和知识图谱的区别

Q:语义网和知识图谱有区别吗?如果有,区别何在?

当下关于知识图谱的讨论越来越热烈,但是经常听到有人用“语义网”来代替“知识图谱”,或者说认为知识图谱本质上就是语义网。这种想法不无道理,我也聚德这两者很大程度上是相通的,甚至知识图谱本来本就脱胎于语义网(Google收购Freebase改造后推出Google Knowledge Graph)。然而,我个人认为语义网和知识图谱还是有区别的。

首先从两者的源流来看。

语义网是Tim Berners Lee 在1998年提出来的概念。他本人在当年W3C的《Semantic Web Road map》里面对语义网的描述是:

Machine-Understandable information: Semantic Web

The Semantic Web is a web of data, in some ways like a global database.

他的理想和1990年提出Word Wide Web的时候并没有大不同,都是整合全球的信息,让每个人都能触达每一份信息。差别是1998年的时候World Wide Web 本质是是一个全球文件系统 (global file system),因为web上的内容绝大多数都是HTML文件,以及少量的PDF、视频、音频之类的多媒体文件。他希望更进一步,把web变成一个全球数据库 (global database)。这样一来不仅每个人能得到每一份信息,而且机器也能处理这些信息(即便在今天,机器处理文本信息都是的能力都还是不如处理数据库中结构化信息的能力)。

知识图谱是Google在2012年提出来的概念。Google的做法是在自家建立了一个大型的图数据系统,把自己的信息组织成一个图谱。有了这个图数据系统,Google在搜索上的能力上升了一个台阶,最起码多了一道新的程序,而且和原本基于向量空间模型的方案很不同。有了知识图谱后,Google不仅仅能返回信息量大但密度低文档,还能返回信息量小但密度高的知识卡片。

我认为语义网和知识图谱,两者的最初的动机是不一样的。一个是开放的、共享的、全球的数据库,另一个是封闭的、排外的、自家的数据库(虽说Google的数据也是全球范围的)。目标的不同会导致方法的不同。

语义网使用的数据模型RDF和W3C制定的语义网技术栈就是围绕其开放性、共享性、全球性等特点设计的。1998年时数据库采用的主流的数据模型是关系数据模型(现在也是)。但是关系数据库的一个缺点是需要事前定义好schema,也可以认为是表结构和表关系。这就带来几个问题,最大的问题是改动起来很麻烦,当数据量极大的时候成本会很高。所以语义网采用的数据模型是RDF。RDF最初其实不是数据模型,而是一种数据交换格式,由Ramanathan V. Guha在苹果公司开发,最初名叫Meta Content Framework,后来改进成Resource Description Framework。用RDF对数据建模,不需要事先定义schema,所以也有人把RDF称作schemaless的建模语言。RDF本质上也是对实体和关系建模,首先用Unicode将数据(实体entity、关系predicate和字面量literal)编码,然后用URI唯一标识实体和关系。这样一来,一个RDF数据模型也成了一个图数据模型,各种实体通过关系链接在一起,实体又有自己属性(字面量),形成了一个网。为什么使用URI来标识?我认为这是因为语义网上的数据应该像文档一样能被访问,而文档就是通过URI访问的,于是这个传统就被应用到语义网上了。至于为什么文档用URI标识,Tim Berners Lee的原话是:

A Uniform Resource Identifier (URI) provides a simple and extensible means for identifying a resource

更多URI的好处可以查看相应的RFC文档

知识图谱呢?一说起知识图谱,人们想起的应该不是一个开放共享的全球数据库,而是一个自有的图数据系统,就好像自家的关系数据库一样。Google的知识图谱就是一个私有的图数据系统。互联网是全体使用,全体维护的(W3C之类的也是公共组织),但是Google的知识图谱是一个自家使用,自家维护的数据库。既然是自家经营、自负盈亏,而且规模也没有全球数据库那么大、功能上也不要求全世界的人自由编辑,那就可以怎么容易怎么来。想一下互联网和自家的文件系统。我们自己的文件系统可不是网状的而是树状的,标识用的是文件名而不是URI。当然我们可以把文档转化成HTML文档,把个文档连城一个网,然后放在服务器上,那么网上其他人就可以通过URI访问了。而且现在我们也不是把文档直接放在服务器目录下,而是放进数据库,需要时用后台程序从该数据库中把相应内容调出来,加上HTML模板渲染成一个HTML文档,然后发到客户端去。

所以现在工业界做知识图谱,做的都是像Google那样自家的数据库,底层可以用的是关系数据库,或者改造后的关系数据库,如postgresql,配合一些nosql的数据库。对于数据模型,目前业界采用的主流图数据模型是LPG(Labeled Property Graph)。其标准是Apache的TinkerPop。至于LPG和RDF的优劣势对比,这是一篇典型的文章,作者是Neo4j的开发者。虽然里面一些观点我很不同意,但作为思考的起点还是不错的。(PS:本人不在工业界,本段观点纯属道听途说。)

经过以上对比,我认为语义网和知识图谱不是一个东西,他们的目标和使用的技术都不一样。但既然有人把它们混在一起说,那就说明这两个东西还是很像的。事实上也确实如此,它们本质上都是图数据模型,应该都可以做(至少大部分)相同的事情。而且两者之间转换起来也很简单。Google的知识图谱就是从Freebase导入的,Freebase就是一个语义网项目,使用了RDF模型、用URI标识数据、能用SPARQL查询数据、还定义了自己的本体结构。而现行的图数据库,要把数据导出成RDF也不难,Neo4j就支持直接导出RDF数据。

如今语义网和知识图谱都很繁荣,应该都是前景不错的研究和产业方向。


本作品首发于简书博客园平台,采用知识共享署名 4.0 国际许可协议进行许可。


本文直接或间接地使用了以下著作的内容:

  1. Tim Berners Lee 《Semantic Web Roadmap》
  2. Amit Singhal 《Introducing the Knowledge Graph: things, not strings》
  3. Tim Berners Lee 《RFC3986》
    ······
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容