一些读书笔记+思考
1. 结构性关系比年龄、性别等个体特征更重要,具体的结构性关系仅存在于不同的场景中
学者,一般指在高校的老师,这是一个基本场景。那么学者在其他场景呢?比如学术期刊编委会、重点实验室,这些场景与高校场景部分相同,也有区别。可以认为,这些场景是学者的一种拓展,并且有着不同的实际意义:
期刊编委会成员大多为该出版物所属学科的专家学者以及这个领域的权威人士,编委会负责确定所编出版物的编辑(纂)方针、编纂体例、编选范围,解决编辑过程中某些重大问题,并对出版物文稿作最后审定。
国家重点实验室中,学术委员会由国内外科研院所和高等院校中具有很高科研水平并在国内外具有一定影响的同行科学家组成,职责包括:决定实验室的研究方向及评审项目基金指南,评议研究成果并向有关部门推荐优秀成果和优秀研究人员等等。
可以看出,这些拓展的场景中的学者,一般具有相对较高的学术水平,及一定的影响力,并且拥有着更多的资源,其学术社交范围更广。研究这些拓展场景中的社会网络,有着很高的实际价值。
有一个问题:除此之外,国内学者还有哪些学术场景?
2. 通过实体间的关系建立的各种结构机制影响实体的行动、观念。
最亲密的学者之间共享信息,较疏远的社会关系也有用,甚至更有用。比如通过清华学者,可以联系到武汉理工的学者,原因是他们通过重点实验室建立了社会关系。这种路径,对于产学研活动中,前期的高校联络洽谈,有着重要作用。
问题:在学者构成的网络中,我需要研究哪些关系?
学者之间的关系,包括:
- 论文合著
- 专利合著
- 项目合作
- 重点实验室学术委员会
- 期刊编委会
关系发生的场景不同,作用也不一样。产学研推进过程中,离不开现实地理位置的限制,于是考虑以地理区域为依据,将场景分为(高校内,高校外):
高校内,产生的社会关系反映在论文合著、专利合著、项目合作上,是一种强连接,这种关系维持着学者的日常科研工作基础,影响着学者的行为。
高校外,产生的社会关系反映在编委会,实验室学术委员会等跨学校的组织中,是一种弱连接,这种关系起着传递信息,交换资源的作用,体现着学者的价值。
看样子,这些关系都有意义,需要思考如何研究这些关系?是在同一网络中,同时纳入这些关系进行研究,还是分为层次的网络,分开研究?
3. 桥:如果去除一条线,会将一个图表分为多个部分,则这条线就是桥
有分界点和桥的网络更容易受到破坏,例如恐怖基地的秘密网络,某个联络人死亡,网络就会瘫痪。在课题中,是否也有桥的存在,这些桥维持着学者小团体或者高校之间的信息传递?如果是,那么找到这些桥,也会有帮助。
4. 网络数据的描述总是在网络分析之前,常用的描述方法:图表和矩阵
社会关系图,可以提供直观的网络结构图。但一旦结点和关系数量增多,就很难看。为了简化表示,一个巨大的网络可以在不同的分辨率下实现可视化,这将是课题中需要反复调整的内容。
矩阵,通常是用邻接矩阵来表示网络。这种矩阵大多是稀疏的,一旦网络规模增大,邻接矩阵将无法直接用来计算,当然,会有一些降维的方法去处理大规模的矩阵。
实验中,通常使用networkx工具构造初始网络数据,包括结点(nodes)和边(edges),直接作为算法输入,或者可视化软件输入即可。
5. 网络度量:度分布、聚类系数、平均路径长度
度分布,即结点度数的分布,一般真实网络度分布呈现幂律分布。
聚类系数,依据朋友之间往往也是朋友为思想计算的。
平均路径长度,任意两结点的最短连接长度。
这是在整个网络层面常用的度量方法,还有一些是对于边和结点的度量方法,这里不一一列举。这些度量标准,可以定量的去分析网络的状况,从而有一个更为全面的认识。
6. 社区评价
存在真实答案时的评价
- 准确率和召回率
- F度量
- 纯度
- 归一化互信息
无真实答案的评价
- 基于语义的评价
通过分析社区成员的其他属性,查看成员之间的一致性。比如查看学者的研究方向是否相近,辅助办法可以生成词云来帮助人工判断。- 基于聚类质量方法的评价
误差平方和和簇间距离是其中两个质量评估算法。需要注意,我们必须保证使用的评价社区发现的聚类质量算法应该不同于用来发现社区的算法。
课题中,研究的是真实的学者社区,是没有真实答案的,感觉只能采用第二种方法去评价社区结果。 是否也可以通过手动划分一些学院的社区,做有有标记的评价?比如标记东南大学计算机学院老师的社区。
论文相关问题+思考
1. 论文解决的实际问题是什么?
开题报告中写的工程应用价值是:
按照企业科技攻关项目,预先了解从事相关研究的学者群体及成果,通过企业家和学者的信息交换,有望提高产学研对接效率。
这里感觉写的太抽象,需要细化,思考究竟具体能解决什么问题,或者说,按院系为单位划分出的学者社区,有什么用?
实际上,如果仅仅是把学者划分出来,再一股脑用画图软件可视化出来,比如下图,给人的感觉仍然非常混乱,可以说,没有太多的实际作用。
那么,我可以解决哪些实际问题呢?经过一些思考,我暂且想到一些:
- 在全国层面,将学校看作一个小团体(结点),可以找到学校与学校之间的联系。从而,解决产学研前期,跨校联系老师的问题。
- 在学院层面,将学者划分为不同的社区,为搜索学者团体提供支持。
- 在社区划分后,可以分析社区中,哪些结点处于核心位置,作为产学研预调研中的联系推荐人。
- 在社区划分后,可以计算社区网络的聚集系数、平均路径长度等等度量指标,从而评价学者社区的状态,社区状态越好,产学研对接效率越高(猜想)
- 除了社区发现,还可以研究网络中,结点之间的最短路径,从而可以根据已联络学者,去联系更多学者。
2. 论文研究的数据范围为多大?
论文中,能否只以某个学科为例子去研究,比如只研究计算机学科相关学者,最后的结果也只展示计算机学科学者社区相关情况。因为,一旦不同学科混合构建网络,涉及人工环节的任务量会大大增加。
3. 论文的工作量体现在什么地方?
之前写小论文,大概做完了整个预想的流程,发现好像没做什么工作。之前论文设计的流程:
获取数据 -> 预处理(构建网络,AT模型提取主题标签) -> 网络表示学习,生成学者向量 -> 学者向量聚类,形成学者社区 -> 社区评价及其可视化
我该如何体现出论文的工作量呢?
4. 社区划分结果的评价,采用人工评价,能否说得通?
由于数据来源于真实社会,没有标签,感觉只能采用人工评价,或者计算一些聚集系数作为最后的社区划分的评价指标,答辩老师若质疑结果的可靠性,我该怎么解释?
5. 论文章节如何设计较好?