KDD2015,SEISMIC,用点过程做tweet 流行度预测

SEISMIC: A Self-Exciting Point Process Model for Predicting Tweet Popularity

概述

  • 用自激点过程预测一条tweet的最终转发量
  • 斯坦福的工作
  • 公开了数据和代码:http://snap.stanford.edu/seismic
  • 模型不用训练,也没用过多的特征
  • 根据tweet早期(前一小时)的转发情况,预测最终转发量
  • 实验上只用15%的相对误差
动机
  • 预测一篇文章的最终流行度对于内容的排序和内容的聚合是很重要的
  • Twitter这种信息流式的内容,用户几乎不可能全部跟上,所以可能会错过大量的信息
  • 准确的预测将使Twitter能够更好地对内容进行排名,更快地发现热门帖子
自激点过程
  • 点过程:描述某类事件发生的时刻、地点等的一种随机过程。其中- - - 描述某类事件发生次数随时间变化的过程叫做“计数过程”,比较常见的是泊松过程
  • 自激点过程就是每次时间发生能使得这个事件的发生概率发生变化,例如霍克斯过程,自激点过程常常被用来对“rich get richer”现象建模
  • 在tweet的转发过程中,每一次被转发都可能带动更多的人转发,因为转发能够使得更多人看到,而且一个tweet的传播性也会随着时间而下降。
SEISMIC (Self-Exciting Model of Information Cascades) 模型
  • tweet的传播性随时间变化
  • 能够识别某个时间点信息流的状态:supercritical or subcritical state (超临界或者亚临界状态),就是传播性大于或者小于某个值
  • 超临界状态下的信息流正在经历一个“爆炸”增长的时期, 在这个时候,这个信息的最终流行度无法被准确的预测, 反之就容易预测。
  • 模型无参数,也没有特征工程,也没有考虑社交网络结构
  • 只用到了tweet历史被转发的时间和节点(转发的人)在社交网络里面的度数(这个人的follow 数量)
  • 模型的时间复杂度是线性的,也容易并行化
  • 模型有较强的解释性
实验效果
  • 超过state of the art方法的效果30%(accuracy)
  • 用前一小时的记录预测,15%的相对误差
  • 用前10分钟的记录预测,25%的相对误差
  • 实验还展示了怎么识别将会“病毒式”传播的tweet

相关工作

  • 一般分为基于特征的方法和基于点过程的方法
  • 本工作与其他用霍克斯过程的方法的不同是:本方法的过程的强度(intensity)会依赖于另一个过程强度而变化。
重要参考文献
  • S. Gao, J. Ma, and Z. Chen. Modeling and predicting
    retweeting dynamics on microblogging platforms. In WSDM
    ’15, 2015. 也是点过程做流行度预测

方法实现

  • 一堆公式看得脑壳疼
公式1

公式2

公式3

实验

  • 实验做了挺多做的挺充分的
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 原文:Accurately Measuring Model Prediction Error 在机器学习模型的效果...
    jiandanjinxin阅读 7,298评论 0 3
  • 问:地藏菩萨,我从无始劫以来至今,当下所受哪些业报?分别是善的还是恶的? 答:不邪淫/大善,不妄语/大善,不两舌/...
    长小白阅读 1,769评论 0 0
  • 高效劳累的一天,真真的是像陀螺一样一刻不停闲。晨会、交班,整理参赛病例与领导沟通,第一次正式考核选手,外出给领导亲...
    刘淑正阅读 4,064评论 6 11
  • 农历九月初一(2018.10.9)周二 雨转晴 昨天老师说今天要考试,嘱咐了几句,还开了句玩笑问彧宝:“要考试了,...
    亦然爱彧阅读 1,315评论 0 1
  • 我们今天画的是花田里的小村庄。是用水粉画的。 先画五座小房子,三座高的,两座矮的,屋顶是弧形的...
    郝丽君_67b1阅读 1,220评论 0 0

友情链接更多精彩内容