整体网数据的处理办法取决于要研究的问题。换句话说,整体网数据的处理方法因问题不同而不同。对数据进行预处理的目的在于,使得数据满足进一步分析的需要。
需要数据预处理和转换的情况比较多,大概可以分为三种情况 :
- 数据收集过程中存在缺陷,需要弥补。
- 不同的程序要求不同的数据处理(data processing)和转换计算。
- 创建新变量,从而更便于分析。
1.抽取子图和子矩阵
把一个点或者多个点从一个网络中移出去,这个对应于从一个邻接矩阵中转移出一行(列)或者多行(列)。从data
>Extract
>SubMatrix
命令中可得。
-
which rows
:例如输入1 To 10,12 To 24
-
which cloumns
:如果指令相同,只需要输入same
即可。
2.数据的合并
有时候我们需要在不同的文件夹中保存同一群行动者的多类关系数据,有时候有需要把它们合并(merging)在一个文件夹中。从
data
>join
命令中可得。
- 如果是行合并的话,点击
join
>join rows
- 如果是列合并的话,点击
join
>join columns
- 如果是矩阵合并的话,点击
join
>join matrix
3.数据的置换与排序
对矩阵行和列的排列,可以使得同一群体的成员相互邻接,进而容易把握矩阵的整体结构。UCINET给出了两种排序方式:置换(permutation)与排序(sort)。
4.转置与转型
4.1矩阵的转置(transpose)
举例说明对数据的预处理-转置的必要性:
在有关世界体系研究的文献中,一般约定网络数据中的代表从国家向国家输出的货物。对于网络分析者来说,这可能令人疑惑,因为在网络文献中总是代表从指向。因此就需要对数据进行转置。可通过data
>transpose
得到。
4.2数据的转型
有时候需要对矩阵的行、列、层次进行转换。
例如一个矩阵的行、列、层次分别为“个体”、“其他人”、“周”。为了表示出每个个体在每一周对每个他者的评价变化。需要将矩阵的列“他者”与层次“周”进行变化。可通过
Tools
>Matrix Algebra
完成,如下:tnewcl=transp(newcombl columns levels)
该语句的含义是,对数据库newcombl中的列和层次进行互换,将结果保存在tnewcl中。
5.重新编码
大致分为三类命令:
-
trandform
>Recode
重新编码,如图 -
trandform
>Dichotomize
命令,将自动把每个元素与你提供的切割值进行对比,然后进行二值化处理。 -
trandform
>Reverse
命令:全部取相反数。
6.线性转换
为了执行更一般的转换,如下,就有必要利用矩阵代数程序。
例如,为了把一个矩阵DAVIS中的全部值都乘以7,应该点击
Tools
>Matrix algebra
,在出现的对话框中输入:davis7=linear(davis 7 0)
7.对称化处理
把一个矩阵进行对称化处理(symmetrizing),就是对于全部和来说,要求等于。很多情况下需要进行对称化处理:
一种情况是关于关系本身具有对称性,如“和谁吃饭”,但有时候由于测量的误差,实际的数据可能不对称。
另一种情况是,有时候要把一些非对称关系(如借钱给某人)可能扩展为“金钱关系”这一个对称关系。
UCINET提供多种多种对称化处理的程序,包括用均值、最小值或者最大值代替矩阵元素之值。
8.捷径距离与可达性
8.1捷径距离
捷径距离矩阵(geodesic distance matrix)表述的是各个点之间的捷径距离。捷径距离可以看成是一种影响(凝聚)指数。可以通过Network
>cohesion
>geodesic
命令得到。
8.2可达性(reachability)
在图论中,可达性是指在图中从一个顶点到另一个顶点的容易程度。
9.矩阵的组合
利用组合(aggregation
命令)可以把同一群体行动者之间的多种关系组合在一起。如何测量两个行动者在多种关系上的属性?有两种方式:
第一种方式是利用前面介绍的data
>CSS
。CSS
程序中有多种加总的算法。
第二种方式是矩阵代数算法Tools
>Matrix algebra
。
10.标准化处理(Normalize)
由于有时候每一个数据矩阵的每一行或者每一列的数据单位不同时,就非常有必要进行标准化处理,从而便于比较
Transform
>Normalize
程序可以用来标准化,可利用的标准很多,如针对均值、边缘值、标准值、z-值。
11.改变模态
略