本章作者主要讲述了高斯分布和曼德尔布罗特分布的区别。
1. 模型描述
高斯曲线分布常见于概率统计,两头低,中间高,左右对称。在相互独立的因素,每个因素对整体影响较小时,总体呈现正态分布。
曼德尔布罗特分布则是变化剧烈的曲线,没有尽头,一般呈指数级变化。
2.事实可能并不符合模型
比如,如果说人的身高服从正态分布。但是身高没有无限趋近于零的情况,下限在哪里?可能要翻阅吉尼斯记录来做参考。上限也一样。那么上下限是否和平均值能对称,这是个问题。
再比如,收入的分配是德尔布罗特分布,我们可以认为下限是0,上限是世界首富。
这样的话,是否对于每一个点来讲,收入增加一倍,概率下降1/4?
显然不是。作者也只是采取符合该规律的某一段数据(假设数据可靠)。
3.模型重叠
既然只是截取了某一段数据,那么,对于任意一段钟形曲线,我们在它的上升沿或者下降沿,也能够找到接近指数变化的一段。
4.选择性提取
所以,严格按照作者的说法,这两者的运行上一般也是被柏拉图化。
实际的模型并不重要,重要的是变化的规律是怎样,我们需要关注的是哪一段数据,以便我们了解和预估。
抛开完整的曲线,只取我们需要关注有效的数据区域。
例如,测试东海的海岸线长度,我们并不需要精确到分米厘米,更不需要去对细微的沙滩进行分形,精确到分子原子。
5.为何需要模型
需要模型是为了较为准确的评估数据及其变化趋势。
我们将其简单化,不管是三角形,圆形,还是抛物线,直线,或者正弦波。
这并不意味着,有从几何上完美满足这些模型的事物。而是通过它们,选择性地提取足够准确有效的结果。
6.问题在哪里
问题产生于选择了错误的模型。
我们并不选择符合精确实际的模型,而是在数据段上最有效率的模型。
比如计算一个圆的周长,将它作为理想圆便是有效的。但是计算这个圆的某一小段边沿的长度,我们可能并不把它当圆的边沿计算,而可能是直线测量。
研究原子的能级跃迁,我们使用物理学模型。我们并不直接使用物理定律来计算化学反应,更加不会使用物理来计算“当你打我一拳时,我会不会还手”这类问题。
因此,不管是正态分布,还是曼德尔布罗特,模型本身是否完美并不重要。重要的是,我们怎样选择适合的模型。