之前收到了一个研究nostalgia的学术大牛的主页,粗略数了数,大概1年发了30来篇的文章。这让我就很好奇,这种学术大牛是怎么养成的。
主页:southampton.ac.uk/psychology/about/staff/cs2.page#publications
因此,根据这页的文本内容,想获得这个学术大牛的发表情况,以及和其他学者之间的合作情况。当然,主要就是想学习一下关系网络图的绘制。
根据哪个工作顺手用哪个的原则,整个工作使用了Stata,Python和Excel。
1. 过程
主要过程包括:
- 准备数据源:将主页发表情况复制到txt;
- 提取字段:使用Python利用正则表达式,提取作者,年份,标题,发表期刊等数据;
- 数据清洗:再用Stata和Excel清洗数据;
- 数据整理:使用Python和Stata整理数据,主要是作者之间的合作情况及次数;
- 分析结果:使用Python和Stata得出结果导出Excel,并用Python制作关系网络图。
整个过程中比较花费时间的就是数据清洗过程,主要是作者名字清洗,很多同一个人但是不同缩写情况,有的名字还写错了。。。orz
再来就是,根据每篇文献的作者们整理出大牛和其他学者的合作情况,以及这些发表物中所有作者之间的合作关系数据。
清洗过程略微繁杂琐碎,就不细讲了,直接把结果展示下吧。
2. 结果
a. 所有发表
单就发表期刊文章(Journal)来说,最多一年发表了33篇(含一作和非一作)。而且,至今还有32篇已经接受或待发表,这在社科领域真是不少了。。。
而在所有发表的期刊文章中,JPSP(社会心理学领域顶刊)发表数量最多。
b. 一作发表
单拎出大牛作为第一作者的发表情况来看,每年也算是高产啊。。。
就发表期刊来看,作为一作,发表最多的依然是JPSP。。。
c. 非一作发表
再来看看非一作发表情况,2018年光是和其他学者合作就发表了30篇文章。。。大牛都不是单打独斗的。
意料之中的,非一作发表最多的依然是JPSP~
d. 合作者情况
首先,整理出了和每个作者合作次数情况,这里列出合作次数大于等于10次的吧,基本是都是nostalgia领域的大牛了。
e. 关系网络图
最后,为了做出关系网络图,整理出两两作者之间的合作次数,部分数据结果如下图所示。
然后,使用python的networkx包制作关系网络图(没有方向,但有权重),代码如下:
其中,author1,author2和cooperation_num分别是a,b,weight
import matplotlib.pyplot as plt
import networkx as nx
import os
import pandas as pd
path = os.getcwd()
link = 'Authors_linkdata.xlsx'
link_df = pd.read_excel(path+'/'+link)
link_df.columns = ['a','b', 'weight']
G = nx.Graph()
for i in range(len(link_df)):
G.add_edge(link_df['a'][i],link_df['b'][i],weight = link_df['weight'][i]
)
pos = nx.spring_layout(G)
nx.draw_networkx_nodes(G, pos, node_size=30)
nx.draw_networkx_labels(G, pos, font_size=7)
nx.draw_networkx_edges(G, pos, width=1, edge_color='r',alpha = 0.5)
plt.axis('off')
plt.show()
得出来的图就是酱紫的啦~以这位学术大牛为中心,可以说,距离越近,和这位大牛的合作次数越多。
而且,除了围绕这个学术大牛有个关系网外,左下角和右上角分别也有两个学术“小团体”哟。
本来还用pyecharts的graph做了关系网络图,但是,那个太难看了,而且在不断地运动,就不呈现了,感兴趣的可以自行百度学习啦~