Modeling the Spread of Information on Twitter
本文利用SEIZ谣言传播模型分析推特上的一些热点事件的传播过程,将数据与模型之间的差距进行了最小化,并分析了正常新闻与谣言传播的区别。
SEIZ Model
(S)表示尚未听说新闻的用户;(I)表示已经在Twitter上发布消息的用户;(Z)指的是已经听说新闻但选择不发推特的用户;(E)指的是通过推特收到消息但在发布之前花了一段时间——曝光延迟的用户。文章定义了一个名为曝光率的参数,它是进入E状态的概率与离开E状态的概率之比:在模型被提出的文章中,改参数值对于正常新闻来说,>1,而对于谣言<1.
新闻与谣言实例分析
SNAP以如下格式提供了所需的所有推特,使用时只需根据话题从其中提取相对应的。
数据最终被处理为<时间,推特数>的数据对,时间可以是等间隔的,例如一分钟、十五分钟、一小时。然后通过最小化实际数据与数值预测( I 状态节点数)之间的误差,来确定模型的参数。
实验及结果
- I(t)的准确度
- 谣言检测
- 曝光度
在SEIZ原文中,被认为可以可以用来区分正常新闻与谣言,然而在本文中对于不同性质的事件,我们并没有观测到有任何区别,看起来它甚至是随机的。- 其他参数
本节试图从最优化后的参数中观察得到正常新闻与谣言在传播时表现出的具有一般性的差别,无果。- 估计未来推特
对于这6个事件,该模型能够以不超过6%的错误率估计未来12小时内的tweet数量。