知识图谱Knowledge Graph

Knowledge Graph技术架构
图片.png
Knowledge Graph绘制
图片.png
文献计量方法

科学知识图谱属于科学计量学,因此必然文献计量学的方法,主要包括:

  • 引文分析方法
    引文分析是利用各种数学、统计学方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法。引文分析大致有三种类型:
    1、引文数量研究,主要用于对科学家、出版物和科学机构的定性和定量评估。
    2、 引文结构(网状或链状关系)研究,主要用于揭示科学的发展与联系。
    3、 引文主题(相关性)研究,主要用于揭示科学的结构以及进行信息检索。
  • 共引分析方法。
    共引分析是1973年斯莫尔等人就提出把文献共引分析作为计量文献之间关系的一种方法。共引(co-citation)又称被共引,即两篇文献同时被一篇或多篇文献说引用,同时把共同引用这两篇文献的文献数称为共引强度(或共引频率),共引强度越大这两篇文献关系越密切。在共引图谱中,点表示文献,当相关文献对的共被引强度等于或大于某个阈值时,两点就被连接起来。共引分析多用于作者共引分析和期刊共引分析。
  • 耦合分析方法
    与共引分析相对应的是耦合分析。几篇文献具有相同的参考文献就形成了文献耦合关系。具有相同参考文献的文献数称为耦合强度。耦合分析包括文献耦合分析、期刊耦合分析、作者耦合分析、学科耦合分析等,分别表示文献、期刊、作者、学科之间具有主题和内容相似性,可做为相关文献分析、作者群体分析和科学演化分析等的依据。
  • 词频分析方法
    词频分析是是齐普夫定律为理论基础进行文献内容分析方法。词频分析可分为标题关键词词频分析、摘要词频分析、内容词频分析、引文词频分析和混合词频分析等。词频分析大量应用于科学前沿主题领域和发展趋势等研究。
  • 共词分析
    共词分析属于内容分析法的一种。它的原理主要是对一组词两两统计它们在同一篇文献中出现的次数, 以此为基础对这些词进行聚类分析, 生成共词文献簇, 进而分析这些词所代表的学科和主题的结构变化。利用共词分析法及其相关的可视化方法可以进行深入的主题分析, 系统而直观地了解学科结构和发展状况, 并进行学科发展预测。
  • 链接分析方法
    链接分析,利用图计算、拓扑学和文献计量学等方法,对网络连接文档、自身属性、连接对象、连接网络等进行分析。链接分析涉及文档包括:页面、目录、域名和站点。在理论上,连接分析与文献计量学中的引文分析有高度的相似。
    链接分析运用拓扑学知识通过分析链接网络来研究网络结构,结合社会网络分析可以分析研究和绘制网络信息知识图谱,展示网络信息、知识分布结构和演化规律等。
统计分析方法

科学知识图谱构建实用的统计分析方法主要是多元统计分析[12]。多元统计分析是经典统计学的分支,在多个对象或指标相互关联的情况下分析其统计规律。“维度降低技术”是多元统计分析的一个特征,从几何学看这个过程是讲高维空间的目标投影到低维空间。主要的其中包括:

  • 因子分析(主成分分析)
    因子分析是用少数几个因子来描述许多指标之间的关系,即将较密切的几个变量归为同一类,每一类变量成为一个因子,以较少的几个因子来反应原资料的大部分信息。
  • 多维尺度分析(MDS)
    通过低维空间展示作者(文献)之间联系,并利用平面距离来反映作者(文献)之间的相似度。多维尺度分析的图形显示结果更加直观和形象,因子分析则更容易确定各个学术群体的边界和数目,因此需要同时借助因子分析的结果, 进行知识图谱的绘制。
数据挖掘方法

数据挖掘是指从大量的数据中通过算法提取、挖掘未知的、有价值的模式或规律等知识的复杂过程。科学知识图谱的绘制使用了很多数据挖掘方法,常用的方法有聚类分析、数据可视化和社会网络分析等。

  • 聚类分析
    聚类分析将物理或抽象的对象集合分成相似的对象类的过程。簇是数据对象的集合,同一个簇中的对象彼此相似,而不同的簇彼此相异。文献聚类分析是聚类分析技术在引文分析中的具体应用。处理方法是将文献通过分词、去停词等方法转化为词向量,并将每个词条赋予不同的权重,这样一篇文献就可以由词条权重值组成的特征向量来表示,所有文献将组成了特征向量空间模型,在该模型中使用聚类分析技术进行引文分析。
  • 数据可视化
    数据可视化,也成为信息可视化是指将抽象数据用图形图像等可视化形式表示出来,以利于分析数据、发现规律和支持决策。常用的可视化算法有:
    1 、自组织特征映射网络SOM(Self-organizaing Feature Map)是一种基于神经网络的算法,它通过把高维数据映射到低维空间进行聚类,并保持一定的拓扑有序性。
    2 、寻径网络图谱PFNET(PathFinder Network)是对不同的概念或实体间联系的相似或差异程度进行评估,应用图论中原理和方法生成的一类特殊的网状模型。
  • 社会网络分析
    社会网络分析(Social Network Analysis)也称为结构分析,是将社会结构界定为一个网格,这个网格由成员之间的联系进行连接。社会网络分析聚焦于成员之间的联系而非个体特征,并把共同体视为“个体的共同体”,即视为人们在日常生活中所建立、维护并应用的个人关系的网络。社会网络分析方法被证明可以成功的研究科学合作网络和互联网络所得到的可视化网络,并被用于展示科学计量学的合作网络结构与发展。
数据挖掘方法

数据挖掘是指从大量的数据中通过算法提取、挖掘未知的、有价值的模式或规律等知识的复杂过程。科学知识图谱的绘制使用了很多数据挖掘方法,常用的方法有聚类分析、数据可视化和社会网络分析等。

  • 聚类分析
    聚类分析将物理或抽象的对象集合分成相似的对象类的过程。簇是数据对象的集合,同一个簇中的对象彼此相似,而不同的簇彼此相异[13]。文献聚类分析是聚类分析技术在引文分析中的具体应用。处理方法是将文献通过分词、去停词等方法转化为词向量,并将每个词条赋予不同的权重,这样一篇文献就可以由词条权重值组成的特征向量来表示,所有文献将组成了特征向量空间模型,在该模型中使用聚类分析技术进行引文分析。
  • 数据可视化
    数据可视化,也成为信息可视化是指将抽象数据用图形图像等可视化形式表示出来,以利于分析数据、发现规律和支持决策。常用的可视化算法有:
    1 、自组织特征映射网络SOM(Self-organizaing Feature Map)是一种基于神经网络的算法,它通过把高维数据映射到低维空间进行聚类,并保持一定的拓扑有序性。
    2、 寻径网络图谱PFNET(PathFinder Network)是对不同的概念或实体间联系的相似或差异程度进行评估,应用图论中原理和方法生成的一类特殊的网状模型。
  • 社会网络分析
    社会网络分析(Social Network Analysis)也称为结构分析,是将社会结构界定为一个网格,这个网格由成员之间的联系进行连接。社会网络分析聚焦于成员之间的联系而非个体特征,并把共同体视为“个体的共同体”,即视为人们在日常生活中所建立、维护并应用的个人关系的网络。社会网络分析方法被证明可以成功的研究科学合作网络和互联网络所得到的可视化网络,并被用于展示科学计量学的合作网络结构与发展。
知识图谱绘制的步骤

科学知识图谱绘制过程可分为8个步骤【国外知识图谱绘制工具,杨洛斯】(如图所示)即:
1、样本数据检索(对期刊数据WOS、Science Direct或网络数据库Google Scholar、CitSeer等);
2、数据预处理(分词、去停用词、去重、勘误等);
3、选择知识单元(作者、关键词、机构、期刊和文献);
4、构建单元关系(引文分析、共现分析、共引分析、耦合分析、词频分析等);
5、数据标准化(Cosine、Jaccard、Equivalence、Association Strength等);
6、数据分析(因子分析、多维尺度分析、自组织映射图、寻径网络图谱、聚类分析和潜在语义分析等)
7、知识可视化(几何图、主题河图、星团图、冲积图、地形图等);
8、图谱解读(历时分析、突变分析、空间分析、网络分析、地理分布、浏览查询、放大缩小、过滤关联等)。
目前这8个步骤还都是针对中小型数据集,而且步骤之间多以手工过渡为主,缺少对海量文献数据处理过程和全自动完成知识图谱绘制方面的研究。


图片.png
知识图谱绘制的工具

对于知识图谱的绘制工具可分为专用工具如Bibexcel、HiteCite、CiteSpace、NWB Tools和TDA;通用工具如统计分析软件如SPSS和SAS,词频分析工具Word Smith和Word Cat,社交网络分析工具如Pajek和Ucinet,可视化工具如VOSviewer、Net Draw等。

本文是对在知识图谱的整理,借鉴转载自http://www.360doc.com/content/15/0403/15/13987479_460345596.shtml

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350