《The analysis of social network data: an exciting frontier for statisticians》
这是一篇关于社会网络数据分析的统计学论文,它由A. James O'Malley撰写,于2013年在Statistics in Medicine杂志上发表。这篇论文的动机是近年来对社会网络和个体健康之间的关系的研究兴趣,这是由Nicholas Christakis和James Fowler关于健康行为在人与人之间传播的一系列论文引发的。
• 个体的特征是否通过一种诱导(也称为社会影响、同伴效应或社会传染)的过程从人到人传播?
• 什么因素影响了一群个体之间关系的状态和结构?
• 如何用合适的统计模型和估计方法来描述和分析社会网络数据?
• 如何处理社会网络数据中存在的混杂、选择、依赖等问题?
• CF的方法有什么优点和缺点?
令 yit 和 xit 分别表示个体的结果和其他特征的向量(xit 包含 1 作为其第一个元素以容纳截距)。此外,aij 表示个体 i 和 j 之间的关系,目前假设为时间不变的。为了便于表示,我们不区分随机变量和它们的实现。向量 以及矩阵
和 A 是各自的网络范围量。我们在图 1 中描述了这些变量的表示。
在有向网络中,从 i 到 j 的关系状态可以不同于从 j 到 i 的关系状态,而在无向网络中,,意味着
给出,分别是 i(自我)影响的个体数量和其他个体的数量(改变)影响自我。这些分别称为扩张性和流行性。网络的度分布反映了个体之间联系数量的异质性。出度和入度之间的正相关表明受欢迎的个体是广泛的——这种现象被称为程度同质性。
1.社会网络Social network:一组个体及其之间的联系(关系)。
(a) 两度分离Two degrees of separation:由两条路径(一个中介个体)连接的两个个 体,它们之间没有直接的联系。
(b) 三度分离Three degrees of separation:由三条路径(两个中介个体)连接的两个个体,它们之间没有更短的路径。
3. Dyad二元组:网络中的一对个体。在有向网络中,二元组的状态是构成个体之间的一对联系的状态。
6.Social selection (homophily)社会选择(同质性):有相似特征的人彼此之间形成关系的倾向。
(a) Expansiveness扩张性:‘出度’或从一个个体发出的联系数。
(b)Popularity 受欢迎程度:‘入度’或指向一个个体的联系数。
(a) Reciprocity互惠:网络中形成相互联系或联系被回应的倾向。这是闭合的最简单形 式。
(b) Transitivity传递性:如果个体A到个体C和个体C到个体B的联系存在,那么个体A到个体B的联系形成的倾向。通常表述为“朋友的朋友是朋友”。在无向网络中,可以归结为一般的三元组闭合。
(c) Cycle循环:一条返回其起点而不回溯的路径。例如,联系A–B, B–C, 和 C–A形成了一个三循环。
