Wasserstein距离来源于最优运输问题。最优运输问题是寻找概率测度间的最优传输变换的一类特殊的优化问题,它揭示了概率分布空间的内在规律,直观的解释是:假设有两个工地和,工地上有堆土,工地上有个坑,现在要将工地上的堆土全部移动到工地上的个坑中,寻求使所做的功最小的运输方案。在最优运输方案下做的功就是工程领域中常遇到的推土机距离(Earth Mover distance or Wasserstein distance ). 接下来给出Wasserstein distance 定义:
定义(Wasserstein distance)设表示包含 all probability distributions supported on with 的概率空间。The Wasserstein metric is defined via:
for all distributions ,where is a joint distribution of and with marginals and ,respectively .
由定义可知,Wasserstein距离的次方是最优传输问题在代价函数为时的最小传输代价,此外[2]中证明了Wasserstein 距离满足度量定义的三条性质(对称性、正定性、三角不等式)。
接下来给出 dual representation of the Wasserstein metric :
(dual representation of the Wasserstein metric) For any distributions we have
where denotes the space of all Lipschitz functions. The dual representation implies that two distributions and are close to each other with respect to the Wasserstein metric if and only if all functions with uniformly bounded slopes have similar integrals under and .
从表达式可以看出,这个模糊集是以为中心,以为半径的一个概率分布空间的球体,随机变量的unknown true distribution 以较高的置信度包含在这个Wasserstein球内。
[1] Esfahani P.M., Kuhn D. Data-driven Distributionally Robust Optimization Using the Wasserstein Metric: Performance Guarantees and Tractable Reformulations[J]. Mathematical Programming, 2018, 171(1/2):115-166.
[2]Santamorogio F. Optimal Transport for Applied Mathematic [M]. Birkauser, Cham, 2015.
[3]马丽涛, 边伟. 最优传输理论及其在图像处理中的应用[J]. 运筹学报.2019,23(3).