Aminer命名消除歧义可视化工具文档
开始标注
首先,在姓名栏输入需要标注的学者姓名(必须是完整的学者英文姓名,大小写皆可,例如“jie tang”)。

输入完毕后,点击“开始命名消歧义”,系统就会开始加载相关数据(搜索Aminer数据库中所有作者名包含“jie tang”的论文,所有与“jie tang”重名的学者),等待加载完毕之后(如下图所示)即可开始标注。

界面元素介绍
未分配论文集合(紫色外环)

紫色外环(如上图所示)中每一段紫色圆弧都代表一个未分配的论文集合。
所有的未分配论文集合构成了完整的紫色外环。
我们的系统将利用论文之间的相似度,将所有未分配论文聚集成不同的集合。相似的若干篇论文会被聚集到一个论文集合中,以便于批量操作。
可视化
圆环尺寸: 圆弧的尺寸代表了该集合内部论文的数量,论文数量越多,圆弧越长
颜色深浅: 圆弧的颜色代表了该集合内部论文关系的紧密程度,论文之间的相似度越高,圆弧的颜色越深
交互
鼠标悬停:会显示该论文集合的编号、论文数量、内部相似度等信息。

鼠标点击:会选中该论文集合(被选中的论文集合会变成黑色),被选中论文集合的每篇论文都会在圆环内部显示,再次点击可以取消选中。

作者 (红色中环)

红色中环(如上图所示)中每一段红色圆弧都代表一个Aminer数据库中的作者。
该作者的名字与开始标注时输入的作者名字是相同或者类似的,是需要标注的对象。
可视化
圆环尺寸: 圆弧的尺寸代表了该作者名下论文的数量,论文数量越多,圆弧越长
颜色深浅: 圆弧的颜色代表了该作者名下论文关系的紧密程度,论文之间的相似度越高,圆弧的颜色越深
交互
鼠标悬停:会显示该论文集合的编号、论文数量、内部相似度等信息。

鼠标点击:会选中该作者,以及属于该作者的所有已分配论文集合(什么是已分配论文集合下文会有解释),被选中作者的每篇论文都会在圆环内部显示,且所有被选中作者的个人信息会被显示在页面右侧,再次点击可以取消选中。

注意!!!不建议直接点击名下有很多篇论文(超过100篇)的学者档案,同时显示超过一百篇论文可能影响可视化效果并导致系统卡顿!!
已分配论文集合 (红色内环)

红色内环(如图所示)中每一段红色的圆弧都代表了一个学者的已分配论文集合。
我们利用论文之间的相似度,将某个学者档案名下的所有已分配论文,聚合成了一个或者多个已分配论文集合,用于寻找潜在的错误分配论文。
可视化
圆环尺寸: 圆弧的尺寸代表了该集合内部论文的数量,论文数量越多,圆弧越长
颜色深浅: 圆弧的颜色代表了该集合内部论文关系的紧密程度,论文之间的相似度越高,圆弧的颜色越深
交互
鼠标悬停:会显示该论文集合的编号、论文数量、内部相似度等信息。

鼠标点击:会选中该论文集合以及其归属的作者档案(多个被选中的论文集合会变成不同的颜色,而他们归属的作者档案会变成黑色),被选中论文集合的每篇论文都会在圆环内部显示,同时被选中作者的个人信息会被显示在页面右侧,再次点击可以取消选中。

论文(图的节点)
被选中集合中的每一篇论文,都会由圆环内部的一个节点来表示。
可视化

节点颜色: 节点的颜色代表了这篇论文的归属,所有未分配的论文都是红色,已分配论文的颜色与其归属的已分配论文集合的颜色相同(如上图所示)。
交互

鼠标悬停:会高亮显示该节点的相邻节点、邻边以及代表论文归属的一条虚线,同时会显示该论文的所有属性,包括(论文名称、作者机构、关键字词、发表期刊、作者信息、发表年份)

鼠标点击:会选中该节点所代表的论文,并弹出对应的论文信息窗口。所有被选中的节点将被高亮显示,
论文关系(实线边)

如果两个节点之间存在一条边,则代表这两个节点所代表的论文至少有一个选中的属性比较相似。选中的属性可以随时在页面右下角进行更改
交互

鼠标悬停:会高亮显示这条边以及其两端的节点,并显示这两篇论文完整的相似度信息(各个属性的重复字词)
潜在关系(虚线边)
潜在关系代表了圆环内部的某个节点(论文)与其余论文集合的关系。
在我们的系统将揭示两种潜在关系:
如果一个节点与某个已分配论文集合之间有虚线连接,意味着这个节点代表的论文与该已分配论文集合中某几篇论文在选中的属性上比较相似。
如果某个未分配集合的阴影被高亮显示了,意味着圆环内部的某个节点代表的论文与该未分配论文集合中的某几篇论文在选中的的属性上比较相似。

潜在关系同样反映的是页面右下角选中属性的相似度。
潜在关系可以通过页面右上角的开关进行显示或屏蔽,当只关注选中论文集合中论文的相似度时,可以考虑屏蔽潜在关系(屏蔽之后看的更清楚)。
交互功能介绍
固定节点位置

我们的系统会根据节点的连接信息来不停迭代计算每个节点的位置,经过一段时间后,节点的位置将会收敛趋于稳定,当然用户也可以直接点击图表右上方的固定按钮将节点位置固定。
刷选节点

节点固定之后,可以点击固定按钮左侧的刷选按钮,即可按住鼠标进行刷选,松开鼠标之后刷选的形状将固定,但还可以通过鼠标点击拖动刷选框的位置。当拖到想要的位置后,点击刷选框以外的空白区域,结束刷选,结束之后,原本在刷选框内的节点将会被选中,同时显示对应的论文列表界面。
论文列表

论文列表用于展示圆环内部论文的详细详细信息。
我们系统会为已分配论文,未分配论文分别提供一个论文列表。
列表的显示可以通过点击圆环内部节点、刷选节点、点击界面右下角按钮来触发。
在论文列表还可以通过点击全选按钮快速全选论文、取消选中所有论文。
论文列表还提供了筛选功能,用户可以根据需要选择显示所有论文/仅显示勾选论文/仅显示未勾选论文。
操作历史

我们的系统会用户执行的所有操作,通过点击右下角的“显示操作历史”按钮,可以显示用户过去执行的操作及其信息。
通过点击某个操作历史,可以撤销该次操作,标注的进度将会回溯到执行该次操作前的状态。
下载标注结果
标注的结果暂时没有提供上传功能,用户可以选择点击下载标注结果以获得一个json文件,用于保存标注的结果,也可以用于保存标注的进度。
读取标注结果
通过读取上一次下载的标注结果,我们的系统可以在上一次标注的基础上继续标注,也可用于检查标注结果。
数据批次选择
因为我们的系统会根据输入的姓名搜索数据库内所有有关的论文,所以数据量可能会非常大,以至于论文集合过多,影响可视化。
所以对于规模较大的数据我们会将已分配论文集合、未分配论文集合分别进行分批,每次我们的圆环将只会展示其中一个批次的数据,批次的选择由右上角的两个分页器来控制,其中上方的分页器用于控制已分配论文集合的批次,下方的分页器用于控制未分配论文集合的批次。


如图,不同的数据批次将会展示截然不同的论文集合。
批次信息仅仅只会影响到圆环的显示,也就是说,用户可以选中第一批次中的某个论文集合,随后切换显示到第二批次的论文集合,之前选中的论文批次不会受到影响,其内部的论文还是会显示在圆环内部,用户可以通过切换批次来比较不同批次间论文集合的关系。
操作功能介绍
合并档案
合并档案操作将会将选中的作者档案进行合并,执行之前必须有两个或两个以上的作者档案被选中。
当选中多个作者档案,并点击合并按钮之后,会弹出一个档案选择界面,用户将在需要被合并的作者档案中选择一个,被选择的档案信息将会被保留,其余档案信息将被删除,名下的论文将会被汇入被选中的作者档案中。

分配论文
分配论文操作将会将选中的未分配论文分配至选中的作者档案中,执行之前必须要有一篇以上的未分配论文被选中,有且仅有一个作者档案被选中。
分离档案
分离档案操作将会将选中的已分配论文从其归属的作者档案中分离出来,并汇入到一个新建的作者档案中,执行之前必须要有一篇以上的已分配论文被选中,且这些论文有着共同的归属。
新建档案
新建档案操作将会将选中的未分配论文分配至一个新建的作者档案中,执行之前必须要有一篇以上的未分配论文被选中。
删除档案
删除档案操作将会将所有选中的作者档案删除,这些作者档案名下的论文将会被归入未分配论文,执行之前必须要求有一个或一个以上的作者档案被选中。
推荐操作
我们的系统将根据推荐算法持续地为用户推荐操作,用户只需要判断操作是否需要执行即可。
推荐的操作一共有三种类型,分别为
新建档案
分离档案
合并档案
其余所有类型的操作都可以由这三种操作组合得到,例如分配论文操作可以视作新建档案+合并档案。
用户通过点击推荐的操作,来对操作对象进行选中,来进行判断。
由于我们系统推荐的操作都是对论文集合进行操作,并没有精细到每一篇论文,所以用户可以在推荐的操作基础上,进行小规模的修改,以达到最佳的标注效果。
实时计算
每次执行一次操作之后,已分配、未分配的论文集合都将会被重新计算。除此之外,推荐的操作列表也会重新计算。
具体标注流程
建议使用chrome浏览器进行标注,标注时打开页面翻译功能,可以极大地加快标注效率。
标注单个学者的档案
Aminer主要的标注任务,需要对某个知名专家的档案进行消岐,主要任务有两个
去除该专家档案中不属于该专家的论文
找到数据库中其他档案中或未分配论文中属于该专家的论文,并将这些论文归入该专家的档案中。
具体流程如下:
(1)通过Aminer主页查询该专家信息,获取该专家的档案id
(2)首先输入该专家的英文名,点击开始命名消岐。
(3)将专家的档案id输入至档案匹配框中,点击按钮,系统会自动选中该专家的档案。
(4)选中专家档案中某个论文集合。
(5)在该论文集合中不属于该专家的论文,如果找到了,执行分离操作,该专家名下的论文集合会重新生成,回到步骤(4)继续,如果没有找到,执行下一步
(6)排除集合中不不属于该专家的论文后,依次检查该集合中论文与其他档案/未分配论文集合之间的关系,寻找潜在的,属于该专家的论文(判断方法如下)。如果有,利用分离+合并操作/分配操作把那些论文归入专家档案中。回到步骤(4)重新开始,如果没有选中下一个论文集合,进行检查,如果所有论文集合都检查完毕,则标注结束。
快速判断论文是否属于当前档案学者的方法
- 检查该集合中的论文是否与该专家档案中的其余论文集合存在较多的潜在关系,有较多关系则该论文较为可靠,内部潜在关系较少或没有潜在关系的论文极有可能不属于该专家。下图中内部潜在关系较少的就是不属于该专家的论文集合,而内部潜在关系较多的的的确确是属于该专家的论文集合。


- 根据先验知识(对学者从事的领域、所在机构的了解),在论文信息列表中快速地检查这些信息,有冲突的极大概率都是误分配的论文。下图的例子可以看到,UIUC的Jiawei Han是一个数据挖掘作者,可该论文集和中的论文全是材料化学方向的论文,很明显不属于这个UIUC的Jiawei Han。


- 如果通过前两个方法,判断出选中的论文集合中一部分一定属于该专家(可以先把可靠的论文勾选了,以便区分可靠论文与不确定论文),但仍有剩余的一部分论文不太确定时,可以比较可靠论文与不确定论文之间的相似度,如果某篇可靠论文与某篇不确定论文有很高的相似度的话,可以认为不确定的论文是可靠的。
快速判断两组论文是否属于同一个作者的方法
当我们明确知道某几篇论文属于某个专家时,我们可以通过一些技巧来快速判断另一些待定论文是否属于这个专家。
(1)我们首先选中所有可靠的论文,将其与待定论文区分开来。
(2)通过论文列表的“是/否仅显示勾选论文”功能来分别快速浏览可靠论文的信息与待定论文的信息进行比较。
(3)通过可靠论文信息与待定论文之间的相似度信息进行比较(鼠标移到可靠论文与待定论文的边上,可以看到完整的相似度信息,如果没有边或者边很少的话,可以试着多选几个属性(左下角修改),边就会变多了)
标注命名消岐数据集
待续..