通过上一节的zhihu链接明白了从这开始讲ee,以及后面讲rl的原因,都是源自这个zhihu专栏:https://zhuanlan.zhihu.com/p/32311522?group_id=928419100960485376
这一节继续讲linUCB(Contextual Bandits),其实思想和UCB差不多(虽然公式和推导复杂很多),UCB是每一次新的实验来都选当前概率上界最大的那个,获取or不获取到reward,然后去更新它的概率上界(概率和delta都更新);
linUCB也是每一次新的实验都选概率上界最大的那个,但是这个概率上界的计算和UCB不同,是用一个预估概率+相应的delta;预估概率的得到是通过线性模型,特征是菜的荤素、人的年龄等,根据一些reward先学习一波参数,然后再来一个用户就可以得到概率和对应的delta,于是就得到上界,根据上界作为概率去ee。
theta即特征系数,是矩阵得到,theta*x是预估概率,delta是这个复杂的根号;根据最大概率得到要上的菜然后根据reward更新theta的矩阵。
最后补充一下为什么在UCB的基础上要弄一个linUCB,是因为UCB每次都只是试,没有去考虑Contextual的信息。
最后的最后再说一下如果Thompson采样也想用Context的信息要怎么做,如果像UCB一样得到theta*x是固定的值是不行的,这里Thompson的做法是把每一个theta都做一个多维分布,每次采样得到一组值去*x作为每个老虎机的概率;theta的分布是用到了正态分布&共轭分布啥的:https://zhuanlan.zhihu.com/p/32429623