SEISMIC: A Self-Exciting Point Process Model for Predicting Tweet Popularity
概述
- 用自激点过程预测一条tweet的最终转发量
- 斯坦福的工作
- 公开了数据和代码:http://snap.stanford.edu/seismic
- 模型不用训练,也没用过多的特征
- 根据tweet早期(前一小时)的转发情况,预测最终转发量
- 实验上只用15%的相对误差
动机
- 预测一篇文章的最终流行度对于内容的排序和内容的聚合是很重要的
- Twitter这种信息流式的内容,用户几乎不可能全部跟上,所以可能会错过大量的信息
- 准确的预测将使Twitter能够更好地对内容进行排名,更快地发现热门帖子
自激点过程
- 点过程:描述某类事件发生的时刻、地点等的一种随机过程。其中- - - 描述某类事件发生次数随时间变化的过程叫做“计数过程”,比较常见的是泊松过程
- 自激点过程就是每次时间发生能使得这个事件的发生概率发生变化,例如霍克斯过程,自激点过程常常被用来对“rich get richer”现象建模
- 在tweet的转发过程中,每一次被转发都可能带动更多的人转发,因为转发能够使得更多人看到,而且一个tweet的传播性也会随着时间而下降。
SEISMIC (Self-Exciting Model of Information Cascades) 模型
- tweet的传播性随时间变化
- 能够识别某个时间点信息流的状态:supercritical or subcritical state (超临界或者亚临界状态),就是传播性大于或者小于某个值
- 超临界状态下的信息流正在经历一个“爆炸”增长的时期, 在这个时候,这个信息的最终流行度无法被准确的预测, 反之就容易预测。
- 模型无参数,也没有特征工程,也没有考虑社交网络结构
- 只用到了tweet历史被转发的时间和节点(转发的人)在社交网络里面的度数(这个人的follow 数量)
- 模型的时间复杂度是线性的,也容易并行化
- 模型有较强的解释性
实验效果
- 超过state of the art方法的效果30%(accuracy)
- 用前一小时的记录预测,15%的相对误差
- 用前10分钟的记录预测,25%的相对误差
- 实验还展示了怎么识别将会“病毒式”传播的tweet
相关工作
- 一般分为基于特征的方法和基于点过程的方法
- 本工作与其他用霍克斯过程的方法的不同是:本方法的过程的强度(intensity)会依赖于另一个过程强度而变化。
重要参考文献
- S. Gao, J. Ma, and Z. Chen. Modeling and predicting
retweeting dynamics on microblogging platforms. In WSDM
’15, 2015. 也是点过程做流行度预测
方法实现
- 一堆公式看得脑壳疼
实验
- 实验做了挺多做的挺充分的