现代贝叶斯与多臂老虎机

背景

多臂老虎机是一个在探索(exploration)和开发(exploitation)过程中寻找最高收益的问题。此类“实验”能力几乎已经成为了优秀实验平台的标配。
本篇是阅读《A modern Bayesian look at the multi-armed bandit》后结合个人理解的学习总结。它总结了基于贝叶斯的随机概率匹配法和其它相关方法。

1. 随机概率匹配（RPM）

定义 $Y_t = (y_1, ..., y_t)$ 代表t时为止的奖励序列， $a_t$ 代表t时选择的臂，t时刻奖励 $y_t \sim f_{a_t}(y|\theta)$ ， $\theta$ 是一个未知向量。

$y_t \in (0, 1)$ 情况下两种例子：

伯努利老虎机， $\theta = (\theta_1, ...,\theta_k)$ ， $f_{a_t}(y|\theta)$ 参数为 $\theta_a$
fractional factorial bandit（本文不关注）

定义 $\mu_a(\theta) = E(y_t | \theta, a_t = a)$ 是 $f_{a}(y|\theta)$ 的期望值，最佳策略应该一直选择 $\mu_a(\theta)$ 最大的臂。
在伯努利分布下， $\theta_a = \mu_a(\theta)$ 。

定义 $p(\theta)$ 是 $\theta$ 的先验概率密度，此时以 $p(\theta)$ 产生 $\theta$ ， $\theta$ 产生y，则0时刻选择a正确概率：

$w_{a0} = Pr(\mu_a = max\{\mu_1,... \})$ （1)

定义 $I_a(\theta)$ 为指示函数， $\mu_a = max\{\mu_1,...\mu_k\}$ 时 $I_a(\theta)=1$ ：

$w_{a0} = E(I_a(\theta)) = \int I_a(\theta) p(\theta) d\theta$ （2）

一个例子，先验可以Beta分布，两臂时为二元

如果没有关于 $\theta$ 的先验，则先验视为各个 $\mu$ 是一样的， $w_{a0}$ 是均匀分布。
观测到奖励情况后，通过贝叶斯方法进行更新， $p(\theta | Y_t ) = \frac{p(Y_t|\theta)p(\theta)}{p(Y_t)}$ 。t时刻：

$p(\theta | Y_t ) \propto p(\theta)\prod _{\tau = 1}^t f_{a_\tau}(y|\theta)$ (3)
则此时 $w_{at} = Pr(\mu_a = max\{\mu_1,...\} | Y_t ) = E(I_a(\theta) | Y_t )$ （4）

随机概率匹配用 $w_{at}$ 来分配a的t+1时观测值，通过一种自然平衡探索与开发的方式。

1.1 概率分配计算

如果 $\theta^{(1)},...,\theta^{(G)}$ 是来自 $p(\theta|Y_t)$ 的独立抽样，则基于大数定理：

$w_{at} = \lim_{g\rightarrow \infty }\frac{1}{G}\sum^G_{g=1}I_a(\theta^g).$ （5）

如果 $f_a$ 是指数族，而且 $p(\theta)$ 是它的共轭分布，则可以独立的抽样 $\theta$ ，否则可以用马可夫相关的方法进行抽样模拟。

$\theta$ 的后验抽样足够对概率匹配进行支持。

1.2 隐式分配

（5）可以不用显式计算，从 $p(\theta|Y_t)$ 模拟 $\theta^{t}$ ，并选择 $a = argmax_a\mu_a(\theta^t)$

1.3 探索(exploration)、开发(exploitation)和不确定性

随机概率匹配自然的包含了不确定性，下图为两臂情况下的情况：

Figure 1. One thousand draws from the joint distribution of two independent beta distributions. In both cases, the horizontal axis represents a beta (20,30) distribution. The vertical axis is (a) beta(2,1) and (b) beta(20,10).

在(a)中，错误选中概率为18%；在(b)中，错误选中概率为0.8%。
这个例子说明，随着学习的进行，探索的占比会减少。

2. 其它方法

2.1 The Gittins index(基廷斯指数)

此方法假设单臂未来的奖励会与一个几何分布有关： $\sum_{t = 0} ^ {\infty} \gamma ^ty_t$ ，其中 $0 \leq \gamma < 1$
基廷斯提供了一种计算各个臂价值的算法，得到的结果称为基廷斯指数。它在前提可保证时是最优方案。

γ为0.9时的基廷斯指数表

Brezzi and Lai’s approximation to the Gittins index for the binomial bandit problem with (a) �γ=0.8 and (b) �γ=0.999.

这部分的数学相关很复杂先跳过，简单了解可参考《算法之美》第二章相关部分。

对基廷斯指数的三个问题：

不完全学习，可能最终收敛到次优解；
各臂的参数需要是固定的；
奖励减少结构必须是几何分布。

2.2 UCB算法(Upper Confidence Bounds)

计算每个手臂奖励均值及置信区间上限，然后选上限最高的手臂。
值得注意的是，此上限并不是常见的置信区间算法，而且比较难计算。

2.3 启发式策略

2.3.1 平均分配
次策略均匀的探索每个臂，直到其中一个臂奖励超过某个阈值，然后一直选择此臂。这种方法对 $\theta$ 探索效果很好，但是前期成本高，导致整体奖励效果较差。类似于先进行一轮随机实验评估效果，然后选择效果最好的方案。
2.3.2 连胜就继续，输了就换其它
至少好于随机选择……当最优秀的策略效果也没有特别好时，此方案会过度探索，导致效果很差。
2.3.3 贪心策略
简单的贪心策略效果很差，比较好的是deterministic probability matching做法。但是在批量更新场景，一个更新周期只能探索一种方案，所以前期会表现特别差。
2.3.4 混合策略
混合策略是贪心之外，强制进行一定比例的探索，比如Epsilon-greedy或Epsilon-decreasing。不过上两种方法的敏感度不够高，因此还可以参考Softmax learning方法。

2.4 与概率匹配的对比

概率匹配结合了2.3中的多种好处。

3. 伯努利老虎机上使用不同策略的对比

定义 $\theta = (\theta_1, ...,\theta_k)$ ，先验为 $\theta_a \sim U(0, 1)$ ，它们之间相互独立。
$Y_{at},N_{at}$ 分别代表t时刻a的累计成功次数和观测次数。
则 $\theta = (\theta_1, ...,\theta_k)$ 的后验为：

$p(\theta|Y_t) =\prod ^k_{a=1}Be(\theta_a|Y_{at}+1,N_{at} - Y_{at} + 1)$ (10)

其中 $B_e(\theta|\alpha, \beta)$ 是贝塔分布。此时最佳概率为：

$w_{at} = \int_{0}^{1}Be(\theta_a|Y_{at}+1,N_{at} - Y_{at} + 1)\prod_{j\neq a}Pr(\theta_j < \theta_a | Y_{jt} + 1 - N_{jt} - Y_{jt} + 1)d\theta_a$ (11)

验证主要关注regret，最佳选择 $\mu^*(\theta) = max_a\{\mu_a(\theta) \}$ ，手臂a在t时刻的观测次数为 $n_{at}$ ，则t时刻的regret为：

$L_t = \sum_an_{at}(\mu^*(\theta) - \mu_a(\theta))$ (12)

则T时段累计regret为 $L = \sum_{t= 1}^TL_t$ 。以下是一些模拟对比结果。

3.1 批量更新场景

3.1.1 RPM对比平均分配

Cumulative regret in each of 100 simulation experiments under (a) randomized probability matching and (b) equal allocation. Note that the scales differ by an order of magnitude. For comparison purposes, both panels include a rug-plot showing the regret distribution under probability matching.

Expected regret per time period under (a) randomized probability matching and (b) equal allocation. Boxplots show variation across 100 simulated experiments.

Evolution of the posterior distribution (means and upper and lower 95% credibility bounds) of under (a) randomized probability matching and (b) equal allocation. Each panel corresponds to an arm. Arms are sorted according to optimality probability when the experiment ends.

从测试数据看RPM会比后者好得多。

3.1.2 RPM对比贪心

Regret from deterministic probability matching. The first ten periods were spent learning the parameters of each arm.

(a) Stacked stripchart showing cumulative regret after excluding the first 10 test periods. Panel (b) shows means and standard deviations of the expected losses plotted in panel (a). Greedy methods have a higher chance of zero regret. Randomized probability matching has a lower variance.

可发现在批量更新场景，两种贪心策略效果都是比RPM差的。

3.2 实时更新场景

(a) Expected regret under real-time sampling across 100 experiments, each simulated for 10 000 time steps and (b) mean and standard deviation of the expected losses plotted in panel (a), along with the percentage of experiments for which the optimal arm was selected at time 10 000.

平均效果来看，RPM效果最差，但是它的标准差最小，最优解命中率最高；参数为0.999的Gittins index平均效果最好，标准差较大，且最优解的命中率低于RPM。

后记

RPM可以用来解决多臂老虎机问题，它基于后验抽样，易于实现、健壮性好，且在批量更新场景表现更佳。
此外这是一篇学习记录，个人理解可能不够到位，任何问题欢迎留言。

最后编辑于：2021.07.30 17:00:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,923评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,154评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,775评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,960评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,976评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,972评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,893评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,709评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,159评论 1赞 308
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,400评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,552评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,265评论 5赞 341
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,876评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,528评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,701评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,552评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,451评论 2赞 352