一、知识图谱构建流程:
1)知识建模:
• 理清业务逻辑 • 归纳分类 • 本体设计
知识建模就是在结合自身领域知识特征的基础之上对知识图谱进行顶层设计,构建一个适用于特定领域的知识体系。这个过程需要设计者进行细致的思考与探索,设计者要决定在未来构建好的图谱中应该包含哪些实体和哪些概念,以及实体与实体、概念与概念之间存在何种关系,是整个知识图谱构建的重要基石。
其关键点在于理清业务逻辑,做好归纳分类。
2)知识获取:
主要包括实体抽取、属性抽取及关系抽取。对于结构化数据,只要在第1步设计好了图谱模型,在对应数据库表中找到即可。知识获取的难点在于非结构化数据获取,需采用NLP技术,结合人工规则进行数据识别,识别出具体的实体、属性、关系。
3)知识融合:
通过知识获取得到的数据中往往包含很多冗余、重复甚至错误的信息,因此还需要进行数据整合。知识融合的目的是将不同数据源获取的知识进行融合构建数据之间的关联。包括实体对齐、属性对齐、冲突消解、规范化等,更多的是做一个数据的映射、实体的匹配,可能还会涉及的是本体的构建和融合。
在保险行业中,由于数据质量问题,可能导致一个客户存有不同的手机号或地址, 这都需要写相关规则找出唯一一个确定的属性值。在我司核心数据库中,若投被保人为同一人,则客户号相同,如果把投被保人看成两类实体、则需要继续做处理来唯一标识相同客户号的投被保人,还有一种情况,把投被保人看成一类客户实体,这种情况则涉及到属性对齐,因为一个客户作为投保人或被保人属性值可能会不相同。
4)知识存储:
知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。它们之间的区别如下图所示。RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式。
知识存储主要是根据业务特点及数据规则选择合适的方式将融合后的数据进行保存,选择哪个图数据库也要看数据量以及对效率的要求。目前主流的图数据库有Neo4j、JanusGraph、OrientDB等。其中Neo4j不支持分布式,社区版最多支持320亿个实体、320亿个关系的存储。JanusGraph支持分布式存储,可满足百亿级以上实体关系存储。
5)知识计算
知识计算即通过图挖掘算法或知识推理在结构化的知识存储库中发现隐含关系及知识。图挖掘技术包括:图遍历、最短路径查询、子图查询、路径探寻等。
具体知识计算可分为以下两方面:
- 基于规则提取特征
根据业务规则,通过编写CQL语句,把规则表示出来,展现在图中。
2.基于模式的判断
这种方法比较适用于找出团体欺诈,它的核心在于通过一些模式来找到有可能存在风险的团体或者子图(sub-graph),然后对这部分子图做进一步的分析。 这种模式有很多种,比如在下图中,实体之间共享了很多其他的信息,可以看做是一个团体,并对其做进一步的分析。
6)可视化应用:
数据展示依赖于底层知识图谱,实体之间相互联系构成网状结构,可视化是
将大量的数据、信息和知识转化为一种人类的视觉可看的形式,知识图谱的作用
是从全局层面解决人们认识事物的能力,从整体理解便于记忆和查找,通过对数
据的分析,发现数据之间更加直观的现象,甚至发现数据之间不能直接分析得到
的结果,从而提高认识和理解能力。在知识图谱中重要的是关联资源的分析图,可以清楚看到每个实体与之相关所有其它实体的关系。
二、知识图谱应用场景:
1.反欺诈
知识图谱在行业应用目前处于起步探索阶段,主要存在以下问题:1. 落地少,处于布道阶段,落地实际案例少;2. 场景少,场景零散,形态单一,垂直专用。目前探索比较有成效的场景主要集中在风控反欺诈方面,具体介绍如下:近年来,金融欺诈形式花样繁多,团伙欺诈、内外勾结等手法推陈出新,不少欺诈案件会涉及到复杂的关系网络。在这种严峻形势下,原来通过单点突破进行反欺诈或者侦查的方法已经远远落后于时代需要。我们要建立起一个积极有效的知识图谱,融合不同的数据源,发现更多更深层次的风险模式,找出欺诈者的蛛丝马迹,挖掘其数据的矛盾点和可疑点,识别和预防欺诈事件的发生。反欺诈的核心是人,知识图谱技术将把与投保人和受益人相关的所有数据源打通,整合投保人和收益人的基本信息,如消费记录、行为记录、关系信息、线上日志信息等,进而进行深度分析和预测。
场景1:
利用知识推理算法,比如用户1的周边用户(用户10-用户14)都是灰度骗赔用户,则用户1骗赔的概率就很大,存在骗赔风险。
场景2:
比如用户1的一代和二代直系亲属都没有多指症(属于先天性遗传病),那么用户1患这种先天性疾病的概率就比较小,存在骗赔风险。
2.智能营销
目前还不成熟。