在人类行为和社交网络等社会学数据分析中,"厚尾" "长尾" “幂律” “指数”等数学术语频繁出现,新手阅读文献时往往摸不着头脑。在这篇文章中,我将逐一梳理这些常见概念的关系。
0. 指数分布
在介绍厚尾分布之前,我们需要先理解一个基础连续概率分布——指数分布。指数分布一般用来刻画独立随机事件发生的时间间隔。例如,你在公交站等车,公交车到达的时间受天气,路况,交通等不确定因素影响,两班车的间隔不一定是均匀的。在这种情况下,指数分布可以用来估计两班公交之间的时间间隔。
1. 厚尾分布是什么?
厚尾分布一般指“尾部”比指数分布“厚重“的分布,如下图所示, 红色的曲线为指数分布的CCDF,蓝色为厚尾分布的CCDF
常见厚尾分布 有
-
帕雷托Pareto分布,也称为幂率power-law分布, 具有渐近尺度不变性,对于性质分析很有帮助
power-low distribution - 对数正态 LogNormal
- Weibull
- Zipf
- Cauchy
- Student’s t
- Frechet
厚尾分布的子类目
Regularly varying
次指数分布Subexponential,服从浩劫原则,对于随机游走等问题的研究很有帮助
Subexponential Distributions
长尾分布Long-tailed,服从等待时间爆炸原则,对于极端情形研究很有帮助
Long-tailed Distributions
Fat-tailed
下面这张图说明厚尾分布的各种类型
2. 厚尾分布的性质
厚尾分布具有许多有趣的特性
- 帕雷托准则Pareto principle : 20%的人拥有社会上80%的财富
- 方差无限, 甚至均值无限
- 重大事件相对发生频繁
它们的3个基本性质
-
尺度不变性Scale Invariance
尺度不变性
定理可证明,一个分布具有尺度不变性当且仅当这个分布是帕累托分布
渐近尺度不变性
定理可证明,一个分布具有渐近尺度不变性当且仅当这个分布是Regular varying分布
regularly varying -
浩劫原则Catastrophe principle
通俗意义上来说,浩劫原则指的是仅需要极少甚至一个意外就可以带来巨大的灾难。浩劫原则是厚尾分布的特性之一。相对而言,轻尾分布则服从阴谋原则,可理解为需要多数样本聚合才能产生一定的效果。
浩劫原则和阴谋原则
一个分布服从浩劫原则当且仅当这个分布是一个次指数分布
-
等待时间爆炸residual life blows up
通俗理解,如果你没有很快收到邮件答复,那么你可能永远收不到了~假定你已经等待了x时间,那么剩余等待时间的分布是
residual life distribution如果是一个指数分布
residual life distribution of exponential
residual life distribution of pareto
3. 什么时候会出现厚尾分布?
考虑独立同分布的随机变量Xi,它们的和如何变化?
在人类生活中,厚尾分布比正态分布更经常出现
- 累加性过程 Additive Processes,如上述方差无限时
-
乘积性过程 Multiplicative Proces example of multiplicative processlog normal
MCLTpower law -
极值过程 Extremal Process
极值过程也会导致厚尾分布的出现,l
extremal process
4. 厚尾分布的识别
方案1在双对数坐标系下,幂律分布呈线性
注意使用rank plot(ccdf)而不是简单的frequency plot(pdf)
通过双对数坐标系下的线性判断幂律分布也有一定风险,因为对数正态、Weibull分布也可能是线性的,而且尾部通常含有更多噪声,不符合linear regression全局噪声恒定的假设
方案2使用MLE估计alpha
如果仅有尾部符合幂律分布,如何识别?Hill Estimator ! 这里就不多做介绍啦
Reference
http://users.cms.caltech.edu/~adamw/papers/2013-SIGMETRICS-heavytails.pdf