最近计划给师弟师妹讲citespace,由于没怎么用,忘了不少。找出一年前的笔记,做个简单整理顺下思路。
一、Citespace介绍
Citespace是一款基于Java语言开发的引文可视化分析软件,它能帮助我们挖掘到热门主题、关键性文献,分析出某领域的发展历程。其灵感来源于库恩的《科学革命的结构》“科学研究的重点随着时间变化有时比较迟缓,有时比较剧烈”。由于是通过可视化的手段呈现科学知识的结构、规律和分布情况,因此最后得到的可视化图形被称为“科学知识图谱”。
中文博客-陈超美教授:http://blog.sciencenet.cn/u/ChaomeiChen
学术主页-陈超美教授:http://www.pages.drexel.edu/~cc345/
二、界面简介
Project:新项目的建立、编辑、删除
Time Slicing:对将要分析的数据进行时区分隔,其中years per slice 指按多少年进行切割。对于参考文献和施引文献,前者的时间段和时间切片的设置要比后者更加丰富,时间切片的不同会影响到突发性探测的结果,显著性较强的节点受到的影响会比较小。
Text processing:包含Text Source 和 Text Type,前者是用于选择Term提取的位置,包含标题、摘要、作者关键词、WoS的增补关键词;后者是对共词分析类型的补充选择,选择该功能就可以提取到名词性术语(Noun Phrase),在此处也可以对主要的名词术语进行突发性探测(Burst Dectection),在运行- - Noun Phrase生成共词网络后可以查看熵值(Entropy)
-
Node Types:网络的类型
Author:作者合作网络分析,包含了各个作者在网络中的重要性指标及网络属性。Ps该领域作者之间的合作关系,是否有合作
Institution:机构合作网络分析,可以得到各个研究领域中的研究力量分布
Contry :国家合作网络分析
Term:主题共现分析,term表示文章中的标引词,term来源可以来自文章标题、摘要及关键词部分,citespace软件运行过程中如果采用了term词标示,需要在面板term source 模块下选择term 的来源,可以选择一个来源,也可以选择多个来源。使用term分析要比关键词分析更深入到文本内容,反映出来的信息也更全面。
Keyword:关键词共现分析,分析对象为文档中的DE和ID字段,得到结果为关键词共现网络,此网络可以反映出某一领域当前研究热点及过去产生过哪些热点研究。
Category:学科共现分析,用于交叉学科的分析,分析对象为文档中的SC字段,通过构建学科关联网络,可以揭示出各个学科之间的内在联系。
Cited Reference:文献的共被引分析,参考文献共被引是指两篇参考文献被同一篇文献引用的现象,通过分析共被引网络中的聚类及关键节点,可以揭示出某个研究领域的知识结构。
Cited Author:作者的共被引分析,作者共被引是指两个作者共同被其他文献引用的现象。Citespace软件计算作者共被引时只考虑第一作者共被引情况,并且同一作者在同一篇文献中被引用多次也按一次计算。通过计算共被引作者关系,可以得到作者共被引网络图,图中可以揭示出某个研究领域的学术共同体
Cited Journal:期刊的共被引分析,期刊共被引是指两本期刊被同一篇文献引用的现象,期刊共被引所反映的是各类期刊及学科间的关联性。通过期刊共被引分析可以获得某研究领域的知识基础分部。
Paper:文献耦合分析功能,分析施引文献之间的耦合关系,及两篇文献引用了相同的一篇或多篇参考文献,得到的结果为文献耦合网络。
Grants:基金分析功能,分析文献的基金资助情况,得到的结果为资助基金的共现网络。
Author、Institute、Country用来进行Co-authorship分析,它们之间的差异仅仅是因为在分析合作上的主体粒度不同而已。Term:主要对文献中名词性术语的提取,主要从文献的标题、摘要、关键词和索引词位置提取。Keyword 主要是对作者的原始关键词的提取。它们常常用来对文本主体进行共词的挖掘分析。Category是对文献中标引的科学领域的共现分析,这种分析有助于了解对象文本在科学领域中的分布情况。
三、常用数据库
WOS、Scopus的数据结构是最完整的,Derwent、CSSCI次之,CNKI的完整性最小。CNKI是以WOS数据为基础的。通常收集的文献题录数据有:PT文献类型,AU作者,SO期刊,DE关键词,AB摘要,CI机构,CR参考文献。
需要注意:基于CNKI下载文献时使用Refworks格式,此外citespace对数据文本命名有特殊要求:download_xxx(Download有时不能识别)
四、术语知识
Betweenness centrality:测度节点在网络中的重要性,在citespace中它可以帮助我们发现和衡量文献的重要性,并用紫色圆圈进行标注。
Burst检测:突发主题、文献、作者及期刊印证信息。
citation tree-rings:引文年环,代表着某篇文献的引文历史,引文年轮的颜色代表相应的引文时间,一个年轮厚度和相应时间分区内引文数量成正比。
Thresholds:阈值,其设定方式一共有4种:Top N、TopN%、ThresholdInterpolation、SelectCiters。
- Top N选取被引次数最高的N个引文
- TopN%先按被引次数排序再按百分比(N%)选取引文,这两种方式各时间分区的阈值完全相同。
- 阈值插值(Threshold Interpolation)从被引频次c(citation)、两篇文献的共被引频次cc(cocitation)和共被引系数ccv(cosinecoefficient)三个层次设置阈值,其中ccv计算公式为,其中cc(i,j)是文献i和文献j的共被引次数,c(i)和c(j)是各自的被引次数,例如在某个时间分区里,文献i和文献j共被引2次,文献i被引4次,文献j被引3次,则ccv=2/sqrt(4×3)≈0.577它在整个时间跨度的第一个、中间一个、最后一个时间分区分别设定阈值锚点,其余时间分区的阈值利用线性插值算法来计算,实现了不同时间分区阈值的个性化。
- 选择施引文献(Select Citers)先根据引文记录中的TC字段值筛选施引文献,然后需再用Top N、TopN%、ThresholdInterpolation中其中一种方法作为阈值筛选施引文献中的参考文献。Space Status文本框中space栏对应数值为该时间分区内引文的有效参考文献数目,题录字段缺失及重复的参考文献不计入,nodes指满足阈值条件的参考文献数目。Process Reports中Records withinthe chosen range的值指有效的引文数量,缺少参考文献的引文不记数。
施引、被引和来源文献
- 施引文献:引用当前文献的后续文献,即新出版的引用当前文献的文章
- 被引文献:当前文献引用的文献(引用的直接出处)
- 来源文献:当前文献引用的文献(引用的原始出处)
比如论文A上一理论是原创的,被论文B转载或摘抄了部分内容,然后自己写论文又用到了B里的相关内容。那么B就是“被引文献”(直接引用了内容),A则是“来源文献”(实际的内容出处)。
五、关键所在
在操作前要运用尽可能广泛的专业术语来确定所关注的知识领域,一遍所得到的结果能尽可能地涵盖所关注领域的全部内容。在确定专业术语时,可以通过查看专业领域的主题词表和通过咨询领域的专家的方法。确定好术语后,需要采用主题、标题、关键词进行检索,在检索过程中要注意剔除干扰信息,比如征稿之类。之后进行提取研究前沿术语、时区分割、阈值选择的操作。
六、操作步骤
总的来说,使用citespace进行文献分析的关键步骤一共有9步:
- 确定研究主题及其相关术语
运用尽可能广泛的专业术语来确定所关注的知识领域,这是为了所得到的结果尽可能地涵盖所关注领域的全部内容。 - 收集数据
对于WoS中下载的数据,citespace可以直接读取和分析,但是从其他数据库所收集的数据需要转化才可以进行分析 - 提取研究前沿术语
从数据可文献的题目,摘要,关键词等中找到出现频次增长率快速增加的专业术语,将其确定为研究前沿术语 - 进行时区分割
明确要分析的时间跨度以及时间跨度的分段长度 - 设置阈值
CiteSpace在单个时间分区按阈值控制网络节点数量,满足阈值条件的引文才会被可视化,其设定方式一共有4种:Top N、TopN%、ThresholdInterpolation、SelectCiters。 - 网络精简和合并
在citespace中有两种网络精简算法,pathfinder和MST,在对数据进行初始分析时,一般不做任何精简。通过初步得到的结果后,再决定采用哪一种精简方法。 - 可视化显示
citespace的默认视图是网络图,除此外还有Timeline和Timezone视图 - 可视化编辑和检测
在得到图谱后,可以通过可视化界面进行编辑美化图形,也可以利用提供的网络计算功能对网络进一步分析。 - 分析结果的验证
使用citespace后针对得到分析结果,要与熟悉领域、专业内容的学者进行沟通,特别是对于网络中突出的关键节点进行咨询沟通。
参考资料:
1.citespace学习摘要及心得(摘自《引文空间分析原理及应用》)
3.《CiteSpace 科技文本挖掘及可视化》
整理了citespace最新版和java安装包,可在公众号回复"citespace安装包"获取。