f-divergence
f-divergence 是 KL 散度的推广,对两个分布和
而言,如果它们各自诱导的
上的概率测度(仍然记作)
和
满足
,即
关于
绝对连续,定义:
如果
和
关于一个共同的测度
绝对连续,那么
,
,代入到上面就是:
在很多资料中,还有
-divergence的概念,一般 f-divergence 写的是连续情况,而
-divergence多指离散情况。对于两个非负向量
和
,这里不一定要求
,用
-divergence衡量这两个向量的相似度:
仅借助的凸性,我们可以得到
的三点性质:
- 非负性:根据琴生不等式,
。
- 单调性:对任意的转移概率
,有:
。
- 凸性:
对
是凸的。因为凸函数的透视也是凸的。
根据的不同,散度可以有多种形式:


这些提出来的散度,都各有各的作用。这些形式中,有的满足距离公理,所以我们称之为“距离”。
其中,JS散度是KL散度的一种改进,KL散度的缺点是不满足对称性,但如下定义的JS散度满足对称性(但仍然不是一种距离)。JS散度作为KL散度的改进被用在了GAN中。
Wasserstein Distance
Wasserstein距离也是用来度量两个概率分布之间差异的方法,它满足“距离”所需要的三个条件,所以我们称之为“距离”!它有很多别名,比如 optimal transport(简称OT)、Earth Move Distance(简称EMD)。其思想于1781年被法国数学家 Gasoard Monge 在交通理论中被首次提出。
Wasserstein 距离现在在算法研究中具有非常高的热度。(2021年2月)在DBLP中搜索Wasserstein,结果数量按年限如下图:

Wasserstein距离相比其它度量分布差异的函数具有显著的优势。
一些其它的分布之间的距离:
Total Variation
TV是两个概率分布在 Borel 集上最大的概率之差。
它不能很好的比较离散和连续型随机变量的分布差异。比如上的均匀分布,和
上的离散均匀分布,按理说这两个分布之间非常接近,尤其是当
很大的时候,但是 Total Variation 恒等于1。
这时候两个分布的 type-1 Wasserstein 距离是
,与我们的认识更加接近。
Hellinger Distance
这些距离不能捕捉概率分布形状上的差异。

Optimal Transport
把概率分布想象成一堆石子,如何移动一堆石子,做最少的功,把它堆成另外一个目标形状,这就是 optimal transport。
假定我们要把概率分布转变成
,设距离函数(转移成本)为
,那么 Wasserstein 距离定义为:
指的是
的联合分布。
距离函数(转移成本)常用的就是范数。所以 Wasserstein 距离通常就写作:
Wasserstein距离不仅给出了两个分布之间的距离,而且能够告诉我们它们具体如何不一样,即如何从一个分布转化为另一个分布,靠的就是联合分布。

Dual form
Wasserstein距离的计算本质上是一个约束优化问题:
这个优化问题的对偶问题是:
而
所以完全可以令
,从而得到最终的对偶形式:
对偶形式在计算中起重要作用。
Wasserstein 距离的应用
参数估计
对于一个样本,可以构造一个 nominal distribution:
是Dirac函数。
用样本去估计参数模型时,选取与经验分布最接近的:
假设检验
上述渐进关系的成立能让我们构造出相应的统计量进行假设检验。
Barycenter
分布的质心(Barycenter)可以看作是一系列分布的平均。Wasserstein意义下一列分布的质心是使Wasserstein距离之和最小的分布:

probabilistic guarantees
假设我们从概率分布中抽出
个样本,这
个样本构造出的nominal distribution
,与实际分布
之间的 Wasserstein 距离是可以保证的。
如果是轻尾分布,即存在
,使得
,给定置信水平
,取
其中
是不依赖于
的常数,这时候有:
这说明,取适当的半径,在Wasserstein意义下,真实分布是有较大概率落在通过样本构造出的名义分布附近的。并且,当分布的支集有界时,。
Wasserstein距离也有缺点,那就是难以计算,除了两个离散分布之间的Wasserstein距离计算是P问题之外,离散-连续、连续-连续的计算都是NP-hard。只有在转移代价或者高斯分布时,才是可以计算的。
参考资料: