推荐系统总结

1.推荐系统的阶段:

召回Match(CF,找到候选者);排序;重排序(多样性/新颖性)

2.推荐系统的评价指标:

precision;recall;F;MAP;NDCG;AUC(Area under ROC Curve,给定一个正样本和负样本,正样本得分高于负样本的概率,当一个分类器将正例的结果都排在负例前面的时候,就是纵坐标先一直升到1,然后往右走,面积为1,理想情况)为啥不用这些指标直接优化呢?因为不可导呀。

多样性/惊喜度/新颖度

上面两大块是矛盾的,实现惊喜多样就会损失准确度

EE问题(多臂老虎机):每次根据以往的收益情况选择一个臂

应用:兴趣探索(兴趣就是老虎机,每次选一个兴趣给它推荐,当用户出现点击等行为的时候就是有收益);冷启动探索(新用户来了,不知道兴趣分布,这时候就得试验);LinUCB(产生收益不仅仅和Item有关,item有一定概率产生收益,其实和用户也有关系,用户和Item的特征一起产生一个收益)

覆盖率:信息熵(推的商品的概率越平均不确定越大,覆盖度越高) 基尼系数

3.存在的问题:

冷启动问题

4.召回阶段使用的方法:

协同过滤:基于内存的协同过滤(User based/ Item based)和基于模型的协同过滤矩阵分解(MF,SVD++,FM中特征只有userid和itemid的时候就是MF,特征有userid,itemlist,itemid时就是SVD++)MF进化成FM再进化成DNN

5.排序阶段使用的方法:

先Prerank粗排,简单的模型快,再rank深度模型,慢,准,最后rerank比如基于session的存储。

learn to rank(pointwise/pairwise/listwise):将个性化召回的物品候选集根据物品本身的属性结合用户的属性,上下文等信息给出展现优先级的过程。之前排序都是计算相似度函数,相似度高的排在前面,但是现在特征太多,将排序引入机器学习概念,就是learn to rank。

实现多目标时,比如对i产生购买行为大于对j产生点击行为。

Pairwise:Bayesian Personalized Ranking(实际上就是在优化AUC,因为BPR就是优化给定i和j,i的分数比j高,就是正例的分数比复例的分数高)

和pointwise目标不一样,训练数据不一样

pointwise每个模型学出来一个得分,进行排序,特征选择和模型训练很重要,感觉更多就是CTR预估的方法

Ranknet:学的是排序位置

Multi-task learning:共享一部分权重,其他实现自己的功能。

6.使用的数据:

显式反馈和隐式反馈

7.两种任务:

评分预测:RMSE均方根误差 MAE平均绝对误差

Top k推荐:Precision/Recall

8.搜索和推荐区别

搜索是主动行为,马太效应,强者越强,弱者越弱;

推荐是被动行为,发现长尾商品,长尾效应,比如很少的产品是销量很高的,很多是销量很低的;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 23 内容架构 日志收集、内容发布、机器学习、信息流服务、监控。 日志收集,是所有排序训练的数据来源,要收集的最核...
    andyham阅读 6,299评论 0 5
  • 太长不读版:由推荐系统带来的推荐服务基本上已经渗透到我们生活的方方面面,本文作为浅谈推荐系统的基础篇,主要从下面几...
    stayrascal阅读 31,641评论 5 60
  • 漫步在大理这个温润如玉的小城,苏越不由自主的放慢了脚步,时间没有停滞,心凝结在那静谧的如诗如画的风景里,回忆沉浸在...
    云洱涡阅读 544评论 2 3
  • 上坡2小时后,到达林场做中途休息。迎面传来一串粗犷的叫喊:"老师,你又来了。中毒了吧!呵呵,这爬山啊真的容易中毒。...
    我和遥遥阅读 226评论 0 1
  • 4月29日,周日,晴。五一放假第一天,感受就是一个字:累!平时上班上学的都很有规律,也有点节制。今天可是找到放假这...
    国一妈妈阅读 159评论 0 0