AAAI2019,在线文章流行度预测

Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features

概述

  • 用文章早期的流行度变化趋势和文章内容预测文章最终的流行度
  • 腾讯的文章,使用的微信文章的数据集
  • 流行度预测的几个挑战:
    1. 流行度的波动会受一些外部的影响,而这些影响难以捕捉
    2. 文章的内容很大程度上决定了它的流行度,然而文章内容常常是多模态或者不方便建模的信息
    3. 也需要对时间和文章内容聚合,来估计文章在不同的生命周期的不同流行度
  • 本文提出了一种能聚合时间过程和内容特征的方法:Deep Fusion of Temporalprocess and Content features (DFTC)
  • 对于流行度随时间的变化过程,通过RNN和Attention CNN对其建模
  • 对于多模态内容,通过分层Attention网络对其建模
  • 最后通过一个时间Attention聚合来动态的整合上面两个特征
  • 使用的微信的数据集


    模型概览

具体方法

问题定义
  • 分类问题,把文章的流行度n个区间分为n个类别
  • 目标是在任何时间都可以预测文章属于哪个类别
  • 把连续的时间聚合为多个离散的时间块
  • 每个时间块里面,用户的反馈为这个时间块里面的view count,share count,comment count 和 like count等等
  • 对于任意时间块,模型根据文章的内容和之前时间块的反馈预测流行度的类别
时间模块
  • LSTM对历史时间块的反馈建模,得到h_t^r,这可以捕捉流行度的长期增长趋势
  • 用1维CNN对历史反馈做个特征提取,然后用Attention得到整体的表示,得到h_t^c, 这可以捕捉流行度的短期波动
CNN+Attention捕捉短期波动
内容模块
  • 文本建模:分层Attention(HAN),得到h^h
HAN对文本建模
  • Embedding:把类别的特征做one-hot,然后做个变换,数值的特征直接做个变换,每个特征都能得到一个向量,然后把他们全部拼起来,再接FC(全连接层),得到h^e
Embedding对meta-data features建模
聚合模块
  • 就是一个Attention把上面得到的4种向量加权求和起来
  • 最后就是sofrmax预测多分类啦
Attention聚合模块
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容