博士论文阅读笔记

要特别注意论文里的符号表示，按照他的表述方式去理解。

Introduction

在贝叶斯机器学习中，我们是和不确定性和概率模型打交道。Gaussian processes（高斯过程）是一种概率模型，该模型在函数上定义概率分布，用于从观测数据里概括出哪些是可能性大的，哪些是可能性小的。

这个概率的观点为数据分析和做决定（decision making）提供了置信区间。在数据分析和做决定时，辨别一个模型是否对它的输出有把握是很有必要的，我们可能会问：我们是否需要更多的数据？是否需要更改模型？是否在做决定时更加小心？这些问题就是贝叶斯机器学习所关注的地方。

在深度学习里，我们只有对参数的点估计和预测。深度模型的使用，让我们牺牲了回答以上问题的工具，因而，我们很可能遇到这种情况：我们不能判定模型做出的预测是合理的，还是模型随机猜的。

大部分深度学习模型被认为是确定性函数，它和概率模型有很大不同，概率模型处理的是不确定性信息。基于这个原因，去观察深度学习和概率模型之间有多紧密，是很令人惊讶的。事实上，我们能从现有的深度学习模型里免费得到不确定信息。本篇论文为理解深度学习中的不确定性提供了实用的工具。

1.1 深度学习

-------------------------------------------------------------

sinusodial 正弦的 orthogonal 正交的 terminology （某学科的）术语 mathematical notation 数学符号

-------------------------------------------------------------

以linear regression为例，在线性回归中，我们有N个输入-输出对，｛（ $x_{1}$ ， $y_{1}$ ），...，（ $x_{N}$ , $y_{N}$ ）｝,我们假设存在一个 $x_{i}$ 到 $y_{i}$ 线性函数映射（linear function mapping）,我们的模型就是f(x)=xW+b.

当x到y的映射是非线性的，我们希望得到一个非线性的函数f(x),那么就用到了linear basis function regression。

在这个回归中，

于是得到一个特征向量

然后用这个特征向量去做线性回归。

后面有大量的数学符号，打在这上面十分不方便，就自己去看吧。

笼统地说，这里为我们提供了用数学的形式去看深度学习的神经网络和层。

模型的表达能力：

An intuitive definition for model expressiveness might be the complexity of functions a model can capture。

模型的表达能力，直观的定义就是一个模型能够捕获的函数的复杂性。

要捕获一个阶数达到 $（K-1）^L$ 的多项式具有的复杂性，用"flat" model，需要 $K^L$ 个basis function,而用一个hierarchical model（比如神经网络），只需要K $\times$ L个basis function。

基函数

这儿没有理解，总感觉是之前见过的机器学习的基础知识，只不过这里作者换个表述方式，所以看不懂。

这里咋还用到RNN了呢，还说在后面的3.4.2详细介绍LSTM和GRU这两个复杂的RNN模型。

1.2模型不确定性

这儿作者举了个例子，有一个深度学习模型，它能对用户输入的宠物狗照片判断狗的种类。这个模型是在不同种类的宠物狗的照片进行训练的，若用户输入一张猫的图片让模型进行预测，它该怎么办？

这张猫的照片属于out of distribution （就是和训练数据所属的分布不一样）的测试数据，我们期望模型不仅输出一个预测，并且还输出一个额外的信息来说明这个输入是out of distribution的，也即是说模型表达出对这个输入的高度不确定性，即模型对自己的输出表示出一个很低的信心。

aleatoric uncertainty（偶然不确定性）是由noisy data 引起的。之前的人还把它称为irreducible（不可简化的） uncertainty，因为给再多的数据也没法减少它。本文中，作者则不认同这一说法，作者认为提高测量精度是可以把它认为是“reducible”（可以简化的）。作者还做实验说明了。

注：作者提到的测量精度我猜测是做二氧化碳浓度实验，搜集的二氧化碳浓度的数据的测量精度。

epistemic uncertainty（认知不确定性），又叫model uncertainty（模型不确定性），它包括uncertainty in model parameters（模型参数上不确定性）和structure uncertainty（结构不确定性）。模型不确定性是reducible（可以简化的），也就是说，给出更多的数据时，能够减少它。

存在很多模型可以解释观测数据，我们选择哪些模型参数呢？这就是在模型参数上的不确定性。

我们选择什么样的模型结构呢？这就是结构不确定性。how do we specify our model to extrapolate / interpolate well？（这句话在提到结构不确定性时说的，我不明白什么意思）

extrapolate v. 推断; 推知; 外推

interpolate v. 插话; 插嘴; (在文章中) 插入，添加内容; 插值; 内插

Aleatoric uncertainty and epistemic uncertainty can then be used to induce predictive uncertainty, the confidence we have in a prediction。

偶然不确定性和认知不确定性能被用来构成预测不确定性，预测不确定性就是我们对于一个预测的可信度。（是翻译成置信度还是其他，我不确定）。

对于out of distribution （就是和训练数据所属的分布不一样）的测试数据，深度学习模型和概率模型的表现是不同的，深度学习模型只给出一个不合理的预测值，而概率模型不仅给出一个不合理的预测值，还给出额外的信息来说明模型对于这个预测是不确定的。

如下图所示：

图1.2

不确定性信息常用于life science和entertaining case，对于医生来说，不确定性信息也是非常重要的。Understanding if a model is underconfident or falsely over-confident (i.e. its uncertainty estimates are too small) can help get better performance out of it.

模型不确定性信息还可以运用在在一些影响人类生活的决策系统中，比如接下来讨论的医生对病人的诊断，自动工具（比如扫地机器人，无人驾驶汽车等），重要的系统以及高频率的交易（Critical systems and high frequency trading）。

1.3模型不确定性和AI安全

把控制权交给自动系统，很可能对人类产生威胁。比如自动决策，自动驾驶，医疗领域的推荐系统，经济领域的高频率的交易，批评系统的控制。这些都可以纳入AI安全的范围。

本文对AI安全一词的解读，与该领域对它的解读有很大不同，那些解读主要是增强学习的背景下对该词进行解读。

本文讨论的情形是，通过监督方式训练的模型，在做决定时把输入错误地映射到输出时，会对人们的生活产生威胁。在这些情境下，依赖不确定性来调整做决定的过程，可能会阻止我们不期待的那些情景的出现。

1.3.1医生诊断病人

内科医生在为病人开药时要看检查结果，并且很大程度上依赖专家对这个检查结果的confidence。而专家的判断又受检查系统的影响，检查系统遇到一些out of distribution （就是和训练数据所属的分布不一样）的测试数据时，会给出一些不合理的建议，从而对专家的判断产生干扰。

然而，基于模型的置信度（model confidence），当模型完全是在随机乱猜的时候，专家就会得到提示模型是在乱猜。

1.3.2自动工具

自动系统能被分为两大类，一类是依赖基于规则的系统来控制他们的行为，另一类是自己学习来使自己的行为适应环境。这两类系统都能用机器学习方法，第一类是通过低层次的使用机器学习算法来做特征提取，第二类则是通过增强学习。

自动驾驶汽车用低层次的特征提取（比如图片分割与图片定位）来处理传感器的输入，然后把这些模型的输出作为高层次的 decision making的输入。高层次的 decision making能够通过专家系统来实现。然而低层次的机器学习模块发生的错误能够传播到高层次的 decision making过程中，进而产生灾难性的后果。作者举了一个发生2016年5月自动驾驶造成伤亡的的例子，系统没法区别出一个正在转弯的拖车的白色部分和晴朗的天空。

对此，我们可以在做高层次的decision making时，利用低层次模块的模型的置信度（model confidence）。

1.3.3重要的系统以及高频率交易

一些重要系统的控制权正逐渐移交给机器学习系统，比如邮局里自动分拣邮件，核电站用一些系统控制那些重要的基础设施，经济领域的那些高频率的交易。在经济领域的这些高频率交易，一旦出错，会对经济市场带来巨大的灾难。

一个解决办法是，当用基于规则的 decision making系统时，采取一个程序验证系统，来验证程序是按照预定的路径来跑的。但是基于机器学习的decision making系统没法采取程序验证系统。

当模型置信度（model confidence）可用时，可以把不确定性输出作为特例。以重要的系统为例，当模型对于输出不确定时，可以把模型的输入交给人，让人来做决定。或者，人们可以采用一个简单并且快速的模型来做预测，对于那些
简单模型不确定的输入，采用一个更复杂但是比较慢的模型来做预测。

1.4模型不确定性的应用

除了在AI安全上应用模型不确定性，还可以把它应用到很多方面，比如choosing what data to learn from或者 exploring an agent's environment efficiently.

这两个任务的共同点就是用模型不确定性来从small amounts of data（数据样本比较少）中学习，这对那些搜集数据比较耗时（比如需要多次重复实验）且昂贵（比如需要专家对每个数据进行标记）的情况非常适合。

1.4.1Active learning（主动学习）

设计一个癌症诊断系统来减轻医生的工作量，该系统输入核磁共振扫描图像（MRI scans），输出癌症诊断的结果。但是要训练这个系统，我们需要大量的带标记的MRI scans，而这个工作需要医生去给MRI scans做注解，然后给其加上标签，表明该图是患癌症还是没有患癌症，但是专家的时间是非常昂贵的，并且获得足够数量的标签数据也是很难的。

那么，我们如何在带标签的数据很少并且专家的知识很昂贵的情况下进行学习？

主动学习可以解决这一问题，主动学习的模型可以自己选择什么样的无标签数据对于它来说信息量最大，并且让一个“oracle”(比如说一个人工标记者)仅对这些数据进行标记。

选择哪些数据点去进行标记是通过一个acquisition function（采集函数）来实现的，该函数根据数据的潜在信息量对数据进行排序。现有的采集函数有很多，并且很多函数根据不带标签的数据点的模型不确定性来判定它们的潜在信息量。

以前面提到的癌症诊断系统为例，我们希望找到一个模型来对图片数据产生好的不确定性估计，并基于这些不确定性估计来设计一个好的acquisition function。深度学习为图片处理提供了很多好用的工具，并且使得模型泛化能力良好，但是这基于大量的带标签数据，并且还没有提供模型不确定性。

本文对这些工具进行了扩展，使其能够在小数据集上应用，并且还提供了好的模型置信度（model confidence）。有了这些工具，本文在主动学习中实现了本文提出的那些观点（章节5.2）。

1.4.2 Efficient exploration in deep reinforcement learning（在强化学习中的有效探索）

强化学习算法通过trial and error(试错)来学习控制任务，和一个小孩子学习骑自行车的过程非常像。每次尝试都要耗费时间和资源，故尝试次数是有限的，这使得data efficiency变得非常重要。

以扫地机器人（可看成是agent）为例，大致介绍了强化学习，并指出强化学习需要在"探索"（“exploration”）和“利用”（exploitation）之间达到一个折中。（更多知识看西瓜书强化学习那一章，本文直接用这些概念了）。

注：在强化学习中，我们的目标就是为了累积奖赏最大化。那么在每次选择动作时，agent会选择在过去经历中它认为奖赏最大的动作去执行，这个可理解为“利用”，虽然有些动作一开始的奖赏很小。但是也许在这个动作的后面会有奖赏很大的时候，所以agent需要去探索，探索那些奖赏比较小的动作，也许它后面的奖赏会很大。

深度强化学习用神经网络来对Q值函数（我理解的是强化学习里的用于评估策略好坏的函数，值函数可以理解成一个状态s的平均reward）进行近似。Epsilon 贪心搜索以一定的概率 $\epsilon$ 进行探索，以1- $\epsilon$ 的概率进行利用（详细内容见西瓜书374页）。但是如果有了不确定性信息的话，那么agent(它是强化学习里的概念,博客上有人翻译成“智能体”)就可以决定何时对环境进行探索，何时进行利用。

若对agent的Q value function进行不确定性估计，则一些技术（比如Thompson sampling）能被用来使学习策略的过程加快。关于这一点，在章节5.3中会进行说明。

一种对data efficiency进行大的改善的方法是modelling the system dynamics。A dynamics model allows the agent to generalise its knowledge about the system dynamics to other, unobserved, states.

Probabilistic dynamics models allow an agent to consider transition uncertainty throughout planning and prediction, improving data efficiency even further。

PILCO是一个基于data-efficient概率model-based的策略搜索算法。

注: (如果我们知道环境的一切，我们就说这个环境是已知的，即model based。也就是说，在这种情况下，agent知道选择一个动作后，它的状态转移概率是怎样的，获得奖赏是怎样的。)

PILCO通过一个高斯过程（GP）动态模型来传播不确定状态分布。传播过程是通过递归地把一个时间步的输出状态分布（输出不确定性）作为下一个时间步的输入状态分布（输入不确定性），直到一个固定的时间horizon T。

This allows the agent to consider the long-term consequences (expected cumulative cost) of a particular controller parametrisation w.r.t. all plausible （可信的，有道理的）dynamics models.

PILCO依赖高斯过程，高斯过程对于小数量的低维数据效果很好，但是scale cubically with the number of trials.（和尝试的数目呈现立方倍数的变化）。另外，PILCO的分布传播过程中，给观测空间维度加了个平方项，因此很难把这个框架用到高维观测空间里。因而，这让那些需要很多尝试的任务里使用PILCO变得困难。更重要的是，PILCO在连续状态转换之间的模型不确定性中不考虑时间相关性。这意味着，PIOCO在未来的时间步里低估了状态不确定性，这会导致性能下降。

在5.4部分，本文打算用贝叶斯深度动态模型来替代PILCO的高斯过程，同时保留原有框架的概率本质和data efficiency benefits。

1.5 Model uncertainty in deep learning

        Even though modern deep learning models used in practice do not capture model confidence, they are closely

related   to a family of probabilistic models which induce probability distributions over functions: the Gaussian

process.

            Given a neural network, by placing a probability distribution over each weight (a standard normal distribution

for example), a    Gaussian process can be recovered in the limit of infinitely many weights (see Neal [1995] or

Williams [1997]). For a   finite number of weights, model uncertainty can still be obtained by placing distributions over

the weights—these   models are called Bayesian neural networks.

高斯过程：现在的深度学习模型和一类概率模型家族紧密联系，这类概率模型能够带来在函数上的概率分布，这就是高斯过程。

对于权重数目有限的网络，能够通过在权重上建模分布（placing distributions over the weights）来获得模型不确定性，这类模型叫做贝叶斯神经网络。

One requirement of such a tool would be to scale well to large data,

and scale well to complex models (such as CNNs and RNNs).

Much more important perhaps, it would be impractical to change existing model architectures

that have been well studied, and it is often impractical to work with complex and cumbersome techniques

which are difficult to explain to non-experts.

上面这一段讲获得模型不确定性的工具应该具备哪些性质：

We will thus concentrate on the development of practical techniques to obtain model

confidence in deep learning, techniques which are also well rooted within the theoretical

foundations of probability theory and Bayesian modelling. Specifically, we will make use

of stochastic regularisation techniques (SRTs). SRTs are recently developed techniques

for model regularisation that have been tremendously successful within deep learning,

and are used in almost all modern deep learning models. These techniques adapt the

model output stochastically as a way of model regularisation (hence the name stochastic

regularisation). This results in the loss becoming a random quantity, which is optimised

using tools from the stochastic non-convex optimisation literature.

这一段讲本文获得模型置信度的技术的理论基础是概率模型和贝叶斯建模。并且还用到了SRT（随机正则化技术）

不确定性计算公式

最后编辑于：2019.10.09 08:49:37

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,080评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,422评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,630评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,554评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,662评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,856评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,014评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,752评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,212评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,541评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,687评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,347评论 4赞 331
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,973评论 3赞 315
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,777评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,006评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,406评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,576评论 2赞 349