2020-11-24学习笔记

阅读论文：Large-scale Interactive Recommendation with Tree-structured Policy Gradient

论文内容：
模型：用Kmeans / PCA-based聚类方法构建平衡树，每个叶节点是item，非叶节点是policy network，分别由FC网络层和softmax激活函数组成，softmax输出的是该节点之后走向下一层每个节点的概率。学习方式用的是REINFORCE.参数更新公式如下：

参数更新公式

状态S的设计：

state representation

将用户的打分信息作为当前状态的一部分，如：the number of positive rewards, negative rewards, consecutive positive and negative rewards before timestep t。
itemID 到item embedding的对应关系可以由以下说的3个方法得到，也可以直接端到端训练。（文中并未说明如何进行端到端训练。）

reward设置：reward function 公式如下：

reward function

r_{ij}

表示empirical reward（normalized rating），

\alpha * (c_p - c_n)

是sequential reward。（可以放到代码里参考一下，这样如果前面推荐的正向reward越多，后续正向reward越大，有激励作用。）

embedding的3种选择方法：

rating-based：直接把用户的打分表达成一个向量，每一维就对应一部电影。
VAE-based：learned by utilizing a variational auto-encoder (VAE) (Kingma and
Welling 2013)。用VAE进行降维。
MF-based：用矩阵分解学习embedding。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2020-11-24学习笔记

2020-11-24学习笔记

阅读论文：Large-scale Interactive Recommendation with Tree-structured Policy Gradient

相关阅读更多精彩内容

友情链接更多精彩内容