[WWW 2019] Self- and Cross-Excitation in Stack Exchange Question & Answer Communities
- 一篇研究QA社区发展的文章
- 利用Hawkes processes,探索了社区用户之间的自我激励和交叉激励现象,包括科技和人文两个主题
- 本文发现,成长中的社区的早期阶段,一小部分核心用户对社区整体的反应具有较高的交叉激励,特别是普通用户的交叉激励,长期自我激励较强
- 此外,本文还观察到人文学科的社区呈现出长期的核心用户交叉激励,而在科技社区群体中,活跃度更均匀地分布于普通用户的自我激励
- 该研究可以让研究者定量地评估QA社区的发展和潜力
[WWW 2019] The Few-get-richer: A Surprising Consequence of Popularity-based Rankings
- 在基于流行度排名的系统中,本文研究发现了一个现象:同个类别拥有越少的item,这个类别整体能得到越多的流行度
- 例如,在news排序中,每次一个列表有20个news,当其中“左倾”的news只有3个的时候,得到的click数比它有17个的时候多
- 首先有几个假设:1. 用户趋向于点击排序靠前的item;2. 用户有多样的偏好,例如用户a偏爱某个类别,用户b偏爱另一个类别,用户c对类别不care
- 本文模拟了一个简单的场景,item有0和1两类,用户有0,1,2三类,0类的用户偏爱0类的item,2类的用户对item的类别没有偏好
- 所以0类用户会喜欢在列表中找靠前的0类item,就算在整个列表中排序靠后,2类用户则不看类别,只偏好于在列表中靠前的item,然后item后根据历史的流行度重新排序
- 这样久而久之,如果1类的item很少,因为喜欢1类的用户是一定的,那么1类的每个item得到平均流行度较高,然后就排序靠前了,排序靠前之后就能进一步得到2类用户的click了,就得到了更高的流行度
-
如下图,M1表示1类item在列表中的数量,左图中beta越大,表示用户click行为越依赖于排名。中间图p2表示2类的用户的存在概率,可以发现2类用户越少,The Few-get-richer现象越不明显。有图中lr表示0类用户与1类用户的比例,可以发现,比例对The Few-get-richer现象影响不大
-
下图为在真实世界中的现象,1类的item一开始排在最后,可以看出M1是2的时候,最后1类的item都排到前面去了
[WWW 2019] Signals Matter: Understanding Popularity and Impact of Users on Stack Overflow
- 分析stack overflow社区上面的用户影响力和流行度
- 从“数字信号理论”方面来分析
- 发现重要的徽章、荣誉值、和用户年龄和用户的流行度集影响力呈正相关
- 还发现,存在高成本和难以观察到的信号,可以区分高影响力用户和高流行度用户
[WWW 2019] Multimodal Review Generation for Recommender Systems
- review文本生成
- 与其他工作的一个区别是,本文通过user和item,同时预测打分和review文本
- 同时还增加了图片特征,也就是把图片也当做一个输入来生成review文本
- 对于打分预测,就是把user Embedding和item Embedding拼起来,通过多层非线性层,得到user和item的整体表示,然后用来预测打分
- 对于文本生成,用的LSTM,每个时刻输入除了上一个词,还有user和item的整体表示,和图片的表示,做Attention(两个表示加权求和)
-
图片的表示则用LSTM的hidden state当做qquery对VGG之后的图片做Attention
- 主要贡献:提出了这么一个新的问题(利用user+item+image同时预测评分和生成评论),然后提出了一个深度学习框架来解决这个问题。
[KDD 2018] Multi-task Representation Learning for Travel Time Estimation
- 做出行时间估计,就是给定起点,目的地,出发时间,估计到达目的地需要的时间
- 这个问题的两个挑战,1是数据信息有限,2是具有复杂的时空依赖
- 本文通过引入额外的数据和学习多任务时空表示来解决这个问题
- 首先,本文增加了路网,就是两个区域之间有没有路(link),然后通过无监督的预训练得到link Embedding
- 然后对空间的Embedding,把经纬度单独做Embedding,每个点的Embedding就是纬度的Embedding拼起来
- 时间的Embedding与空间的类似,把每周的天做Embedding,和每天的时间做Embedding,然后把这两个拼起来
-
整体框架如下图,得到每个特征的Embedding之后,用ResNet学习整体的表示,然后做多任务学习,辅助任务包括预测距离、预测link数量、预测红绿灯数量。预测转弯数量等
- 主要贡献:提出了一个多任务学习的框架来预测出行时间,而且在输入数据中引入了路网的数据。
[KDD 2018] Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks
- 阿里的文章
- user Embedding学习,用于多个任务
- 当前很多场景中,每个任务有各自学习出来的user Embedding,这样没有共享一些有用的信息
- 本文通过用户的多种历史行为数据对用户的Embedding建模,对多个任务学习一个统一的user表示
-
首先把多种类别的用户历史行为输入到LSTM,然后通过Attention得到用户行为表示,和用户特征Embedding拼起来当做用户表示,如下图
- 多任务包括CRT预测、排序、价格偏好预测、风格偏好预测、店铺预测
- 主要贡献:提出了统一学习user Embedding的多任务学习框架。
Coupled Graph Neural Networks for Predicting the Popularity of Online Content
- 微博转发量预测,但是利用了社交网络,知道已经转发过的用户
- 以前的工作都没有用到初始发布者和之后转发者的交互等信息,不是真正的cascading effect
- 本文利用Graph NN对社交网络建模,节点是每个用户,边是follow的关系
- 用了两个Graph,一个是影响力Graph,一个是状态Graph
- 状态Graph中,每个节点用一个0~1的值表示,初始化为0或者1,1表示该用户已经转发了该内容
- 影响力Graph中每个节点是一个向量表示
-
两个Graph一起交互的更新, 最后预测的流行度就是状态Graph每个节点值的和,整体框架图如下:
- 主要贡献:考虑到了社交网络的在线内容流行度预测,并使用一对Graph NN来模拟内容转发的cascading对社交网络建模。