如果将知识图谱比作小孩玩的磁力棒,把一个个互不相干的知识,根据关联性连成一个“语义网络”,这对机器来说就是图谱。相对于目前机器学习中的“深度学习”来讲,知识图谱是一种确定的、可解释的、有迹可循的机器学习方式。知识图谱能够使机器更加智能化,从而更好的与人沟通。
在机器自动梳理出数据之间的关联、自动生成新的知识这个过程中,机器建立起了认识,能读懂和理解人类,也就是具有了跟人类一样,获取和形成知识的能力。简单说,知识图谱对于人工智能的价值就在于,让机器具备了认知能力。
智能搜索的率先一击
以商业搜索引擎公司为首的互联网巨头们最先意识到了知识图谱的战略意义。Google于2012年5月首次提出了用知识图谱描述关联关系,从而改善搜索结果的想法。紧随其后,国内搜狗提出了“知立方”、微软推出的Probase和百度的“知心”。 各大巨头纷纷投入重兵布局知识图谱,从而对搜索引擎形态产生了非常显著的影响。
举个栗子,我们百度搜索“郭敬明”。传统的搜索引擎仅仅是搜索出含有“郭敬明”关键词的所有网页,并根据点击率、更新时间、网站权重等因素排列。而目前的搜索引擎则智能得多,结合知识图谱的应用相当于编织了一张巨大的网,把人物、关系联系起来。如下图所示:
搜索结果会自动匹配网络点击率最高的:郭敬明身高、郭敬明陈学冬恋情、郭敬明抄袭骂战、郭敬明小说、影视作品等等。并根据郭敬明这个实体的属性,罗列出其他你有可能感兴趣的同类型明星演员和青年作家。
再举个经典例子,我们中国人买房子,买完房子下一步就是装修,装修完了就会买家具,然后晾晒入住。这种常识关系,也是知识图谱中非常重要的一部分。如果你在网上搜索房屋交易信息,那么装修公司就可以跟上去做广告;甚至家具供应商、空气净化设施供应商都可以跟进。这就是一种预测。
知识图谱的应用场景
除了智能搜索,知识图谱目前应用到的场景还包括:
l 反欺诈:这主要有两部分原因,一个是反欺诈的数据来源多样,结构化和非结构化,二是不少欺诈案件会涉及到复杂的关系网络
l 不一致性验证(类似交叉验证)——关系推理
l 异常分析(运算量大,一般离线)
l 静态分析:给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。
l 动态分析:分析其结构随时间变化的趋势。(假设短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。)
l 失联客户管理 挖掘出更多的新联系人,提高催收的成功率。
等等……
事实上,知识图谱的应用远不止于此。在我们看来,这个世界就是一张巨大的知识图谱,是无数个实体关系对。几乎可以覆盖所有行业和领域。包括当下非常热门的教育、医疗、金融、商业咨询、法律咨询、情感陪护等等。当然前提是,要像人类社会的细分一样,在每个行业都建立起特有的知识图谱,并不断完善和更新。
建立知识图谱面临的挑战
常识,即“commen sense”,就是大家都知道的知识。比如说人会走、鱼会游、长和短、高和低等等。知识图谱的建立经常会用到一些常识,当问题涉及到常识的时候,这个问题的解释就会变得非常困难。
因为目前对机器而言,常识仍然十分缺乏。而常识缺乏的根本原因在于我们很少会提及常识。正因为大家都知道常识,故而没必要提及,以至于语料中也不会显式提及常识。这样一来,我们之前提到过的,所有基于文本抽取的方法就会失效。
常识的普遍性缺乏,是目前人工智能领域发展面临的最大的障碍。
—THE END—
下期内容:区块链技术如何打破知识图谱构建的瓶颈问题? | “人工智能+区块链”科普第9问