一、概要
- 目标:将合适的内容,在合适的场景,展示给合适的人
- 量化指标:CTR,Click-Through-Rate,点击通过率
- 应用场景:广告展示、推荐、搜索结果排序
广告,考虑ECPM指标(earning cost per mille),每1000次曝光带来收入,ECPM=1000 x CTR x 点击出价。https://36kr.com/p/5150648.html
商品推荐,需要考虑转化率、商品盈利能力等因素。
二、学习目标
1.分类问题,1-点击,0-没点击
2.回归问题,具体的ctr数值
3.多分类问题,根据ctr数值分桶?
业界使用较多的是?几种方式的优劣?适用场景?
三、特征选取&处理
1.item特征
标题、封面图、品牌、分类、tag等等
2.用户特征
年龄,性别,过往记录
3.上下文(场景)特征?
特征处理?跟模型有关,端到端的就不用处理了?
离散值 vs 连续值?
高维、稀疏、多Field
特征之间的关联关系,独立 vs 交叉?(例:衣服类型与性别?)
1.稀疏->稠密,特征独立->特征与特征之间的关系
one-hot, embedding
- 如何实现Embedding
矩阵分解(MF)、因子分解机(FM)、神经网络
四、预估模型(损失函数,优化算法)
- 经典机器学习
*. LR, 一般作为性能的benchmark? 线性-二阶多项式,LR+正则化+特定优化方法
缺点:手工设计特征,需对特征离散化,归一化,特征离散过程的边界问题,特征组合。
*. GBDT + LR
Gradient Boosting Decision Tree
能处理连续值特征?具有一定的特征组合能力,可以对特征的重要性排序。
*. MLR,阿里,聚类+LR - 神经网络
image
https://www.jiqizhixin.com/articles/2018-07-22-19
https://zhuanlan.zhihu.com/p/32689178
https://zhuanlan.zhihu.com/p/32885978
https://github.com/nzc/dnn_ctr
简写 | 日期 | 全称 | 中文解释 |
---|---|---|---|
FM | Factorization Machines | 因子分解机,二次交叉特征 | |
FFM | Field-aware Factorization Machines | 基于领域的因子分解机 | |
DCN | 2017 | Deep & Cross Network | 深度与交叉神经网络 |
FNN | 2016 | Factorisation Machine supported Neural Network | 因子分解机神经网络 |
DeepFM | - | ||
NFM | Neural Factorization Machines | 神经网络因子分解机 | |
PNN | Product-based Neural Networks | 基于向量积的神经网络 | |
AFM | Attentional Factorization Machine | 注意力因子分解模型 | |
MLP | 多层感知机 | ||
W&D | 2016 | wide & deep | 宽度与深度模型 |
DIN | Deep Interest Network | 深度兴趣网络 |
其他:
https://juejin.im/entry/5ae19299f265da0b796495c6
五、效果评估
参考文档:
https://zhuanlan.zhihu.com/p/32689178
https://zhuanlan.zhihu.com/p/32885978
https://zhuanlan.zhihu.com/p/33045184
https://zhuanlan.zhihu.com/p/33177517
https://zhuanlan.zhihu.com/p/33479030
https://zhuanlan.zhihu.com/p/33540686
https://zhuanlan.zhihu.com/p/33587540
https://zhuanlan.zhihu.com/p/33619389
https://www.jianshu.com/p/b69080c98a7a
https://www.jianshu.com/p/2e3dc01a4680
https://cloud.baidu.com/doc/BML/ScenarioTutorial/3F.5C.E5.B9.BF.E5.91.8A.E7.82.B9.E5.87.BB.E7.8E.87.E9.A2.84.E4.BC.B0.html
https://juejin.im/entry/5ae19299f265da0b796495c6
https://blog.csdn.net/DanyHgc/article/details/78776558
https://juejin.im/entry/5ae19299f265da0b796495c6
协同过滤?Collaborative Filtering https://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE
参考资料:
推荐系统遇上深度学习
1.FM模型理论和实践
FM(Factorization Machine) 因子分解机, 嵌入矩阵?
2.FFM模型理论和实践
FFM(Field-aware Factorization Machine)
3.DeepFM模型理论和实践
4.多值离散特征的embedding解决方案
5.Deep&Cross Network模型理论和实践Deep&Cross Network
6.PNN模型理论和实践PNN,全称为Product-based Neural Network,认为在embedding输入到MLP之后学习的交叉特征表达并不充分,提出了一种product layer的思想,既基于乘法的运算来体现体征交叉的DNN网络结构。
7.NFM模型理论和实践
8.AFM模型理论和实践
9.评价指标AUC原理及实践
10.GBDT+LR融合方案实战
11.神经协同过滤NCF原理及实战
12.推荐系统中的EE问题及基本Bandit算法
13.linUCB方法浅析及实现
14.《DRN:A Deep Reinforcement Learning Framework for News Recommendation》
15.强化学习在京东推荐中的探索
16.解推荐系统中的常用评测指标
17.探秘阿里之MLR算法浅析及实现
18.秘阿里之深度兴趣网络(DIN)浅析及实现
19.探秘阿里之完整空间多任务模型ESSM
20.贝叶斯个性化排序(BPR)算法原理及实战
21.阶段性回顾
22.DeepFM升级版XDeepFM模型强势来袭!
23.大一统信息检索模型IRGAN在推荐领域的应用
24.深度兴趣进化网络DIEN原理及实战!
25.当知识图谱遇上个性化推荐
CTR预估(二)
LR与GBDT融合方案