1 MAB问题和Bandit算法
- Bandit算法定义
最大化收益
解决冷启动和EE问题
最小化累积遗憾,把选择的机会给那些确定好的和还不确定的选项 - Bandit算法实现
汤普森采样:使用B分布,α和β,点击了α+1,没点击β+1,对于每个臂根据概率分布产生随机数,选择随机数最大的那个
UCB算法:使用置信空间上界,预估期望和预估收益的置信区间宽度,每次给分最高的,对选择次数不足的臂给予照顾,倾向于那些确定收益好的
Epsilon贪心算法 - 冷启动
用分类或者topic表示用户的兴趣,对每个新用户,用汤普森采样为每个类采样一个随机数,排序后输出TopK个视频,根据点击和不点击更新对应的Topic的参数
2 UCB算法
加入特征的UCB算法LinUCB,收敛快,臂的独立参数,动态处理
3 Bandit算法和协同过滤
解决信息茧房的问题
抱团取暖+走一步看一步