一、web的前身
1991年,Tim 正式对外发布了Web,在这之前我们看看都有那些技术支撑了它的出现。
1969:阿帕网(Arpanet)-第一个使用包交换技术的真实网络,这个算是因特网的前身,它是美国国防部高级研究计划局(Advanced Research Projects Agency,ARPA)信息处理处(Information Processing Techniques Office, IPTO)开发的世界上第一个计算机远距离的封包交换网络,1990年因无法做到与个别计算机交流而关闭
1969:Unix-网络服务器和网络主机提供商中最有名的操作系统
1970:阿帕网络(Arpanet network)-1970年,在哈佛大学、麻省理工学院和BBN(该公司发明了可用于连接上网络的“接口信息处理器”)公司之间建立的网络。
1971:电子邮件-电子邮件于1971年首次被Ray Tomlinson开发出来,他也是那个决定使用“@”符号将用户名和电脑名字(后来变成了域名)分开的人。
1972:CYCLADES-法国人建立的网络
1973:第一个跨大西洋的连接和电子邮件的普及
1974:TCP/IP协议的诞生
1975:电子邮件客户端
1977:电脑上的调制解调器
1978:电子公告栏系统(BBS)
1978:垃圾邮件的诞生
1979:MUD——最早的多角色游戏
1979:新闻组(Usenet)-基于互联网的讨论系统
1980:查询软件-欧洲核研究组织(也就是更广为人知的CERN)开发了ENQUIRE(由Tim Berners-Lee编写),这是一个用超文本写的程序,世界各地物理实验室的科学家可以利用超文本(超链接)跟踪人、软件和项目
1983:阿帕网上的计算机通过TCP/IP交换数据
1984:域名系统(DNS)
1985:虚拟社区(Virtual communities)
1986:协议战争(Protocol wars)
1988:IRC——互联网中继聊天
1989:美国在线(AOL)诞生了
1989:万维网(WWW)的推出
1990:第一个商业性的拨号上网ISP
1990:万维网协议完成
1991:第一个网页诞生了
www诞生前,Email、FTP这些应用都已经可用,但这些应用都不需要一个网状互联的网络作为支撑,它们只面向一个单一组织,当人们需要一个可以看到任何信息的应用的时候,这时候就到了web的出现。
web的成功基于
● 统一资源识别器(Uniform Resource Identifier,URI),解决文档(这个概念被扩展为“资源”)命名和寻址
● 超文本传输协议(Hypertext Transfer Protocol, HTTP),解决文档的快速传输
● 超文本标记语言HTML(Hypertext Markup Language, HTML),解决超文本文档的表示
三种技术加一个浏览器,现代互联网就诞生了。如今现实中的知识几乎都被网络化,我们的生活也依赖互联网提供的海量信息,万维网之后,Tim又提出了语义网,接下来介绍语义网的诞生。
二、web到语义网的转变
简单来说web是文档的链接,而文档中存在大量知识,这些知识只有人可以读懂,如果计算机也可以读懂这些知识,那web对于世界的改变会更加深刻,远远大于web对世界的贡献,如何读懂文档中的知识,就引出了语义网的概念,网络的基本单位,从document变到了data,这就是语义网和web最大的区别。
“如果说 HTML 和 WEB 将整个在线文档变成了一本巨大的书,那么 RDF, schema, 和 inference languages 将会使世界上所有的数据变成一个巨大的数据库。”--- Tim Berners-Lee, Weaving the Web, 1999
第1层:基础层,主要包含Unicode和URI(Uniform resource identifier)。其中Unicode是一种流行的字符集,采用两字节的全编码,可以表示65536个字符,这使得任何语言的字符都可以被机器容易地接受。URI即通用资源标识符是用于唯一标识抽象或物理资源的简单字符串。网络上的任何资源包括HTML文档、程序、图片、音视频等都有一个能被URI编码的地址,从而实现对Web资源的定位。
第2层:句法层,核心是XML及相关规范。XML是SGML(标准通用标记语言)的一个子集,它以一种自我描述的方式定义数据结构。在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的联系。用户可以在XML中自由地定义标记名称及元素的层次结构。为了便于程序或其他用户能够正确处理用户定义的内容,XML还定义了命名空间(Name Space)和XML模式规范(XML Schema)以提供更好地XML文档服务。
第3层:资源描述框架,主要包括RDF及相关规范。RDF是一种用于描述WWW上资源信息的通用框架,比如网页的内容、作者以及被创建和修改的日期等。RDF本质上是一种数据模型,用主体(subject)、谓词或属性(predicate或property)、客体或属性值(object或property value)所构成的三元组来描述资源的元数据。RDF也可以用于表达其它元数据,例如分子的结构、图书的书目信息等。正因为RDF的灵活性,它成为了诸如生物、化学等许多领域表达元数据的基本方法。可以说,RDF已经成为知识表达的通用形式。如果把XML看成一种标准的元数据语法规范的话,那么RDF就可以看做一种标准的元数据语义描述规范。
第4层:本体层,即定义本体(Ontology)。该层在RDF的基础上定义了RDFS(RDF Schema)和OWL(Web Ontology Language)帮助用户构建应用领域相关的轻量级的本体。RDFS和OWL定义了语义,可以支持机器在用RDFS和OWL描述的知识库和本体中进行推理,以达到语义网的目标。
第5至7层分别是逻辑层(Logic)、验证层(Proof)、信任层(Trust)。逻辑层在前面各层的基础上进行逻辑推理操作。验证层根据逻辑陈述进行验证,以得出结论。信任层是语义网安全的组成部分,与加密不同的是,该层主要负责发布语义网所能支持的信任评估。目前第6层和第7层正处于设想阶段。
RDF简单介绍
最初由苹果的一个工程师做出来,后来收编到了w3c,这个技术应用广泛,现在还是有很强大的生命力,这个技术的核心就是资源(resource)、属性(property)及陈述(statements)的三元组。
Ontology
英文术语“ontology”一词源于哲学领域,且一直以来存在着许多不同的用法。在计算机科学领域,其核心意思是指一种模型,用于描述由一套对象类型(概念或者说类)、属性以及关系类型所构成的世界。在语义网的实现中,ontology具有非常重要的地位。怎样构建本体一直是人们研究的热点。各国科研人员研发出了不少本体的构建、存储、和检索工具,其中较为常用的支持中文本体构建的软件是由斯坦福大学开发的Protégé,开发语言采用Java,属于开放源码软件。现在这个公司估值超百亿美金,服务的机构包括美国政府部门和军方部门等,现在正在筹备上市。
OWL
OWL网络本体语言于2004 年2月成为一项 W3C 的推荐标准,它是万维网联盟认可的,用于编纂本体的知识表达语言家族。owl是w3c被认为是构建语义网的最重要的语言,诞生之初很受中视,但因为过于复杂工业应用有限,不如RDF,某种程度上可以说使用OWL构建的知识库是包含语义的,是真正的语义网,而工业应用中通常使用RDF构建,RDF并不包含语义信息,但工业应用RDF也可以做的不错,构建成本也没有那么高,所以工业应用用的更多的还是RDF。owl相比于rdf引入了类的概念,这是我认为owl难于rdf的原因。
当初Tim提出语义网的时候觉得我们几年之内就可以实现,现在10几年过去了,我们离目标还差很远。
三、知识图谱
谷歌提出的知识图谱概念实际上就是他的基础就是语义网,相当于换了个名字,知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识图谱。虽然知识图谱的概念较新,但它并非是一个全新的研究领域。早在2006年,Berners-Lee就提出了数据链接(linked data)的思想,呼吁推广和完善相关的技术标准如URI,RDF,OWL,为迎接语义网络时代的到来做好准备。随后掀起了一场语义网络研究热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。