丑小鸭定理

对于丑小鸭定理,你可能有点印象,但是你可能没想到它是一个数学定理,而且是一个1969年才出现的定理。了解这个思想,有助于我们变成一个更开朗的人。

丑小鸭定理问的是这样一个问题:一只丑小鸭跟一只天鹅之间的区别大,还是两只天鹅之间的区别大?

直观的答案肯定是前者区别大。两只天鹅毕竟都是天鹅,长得肯定像,而丑小鸭跟天鹅是很不一样的。

但这只是考虑了它们的外形,我们还可以从别的方面比较,比如DNA。假设丑小鸭是这两只天鹅生的女儿,两只天鹅作为夫妻,它们的DNA并不相似。而丑小鸭的DNA一半来自她的父亲,一半来自她的母亲。所以要比较DNA的话,丑小鸭跟其中任何一只天鹅的相似度,都远远高于这两只天鹅之间的相似度。

这个道理是,如果要比较相似度,首先得看看比的标准是什么。但是我们能想象的标准可能有无穷多个,这没有办法计数啊?所以我们需要一个数学的洞见。(如果你对数学不感兴趣,可以直接跳到第一小节的结论。)

这个洞见就是,所谓两个东西“相似”,就是在给所有东西分类时,这两个东西能被分在同一个类里面。在各种不同的分类之中,它们两个被分到一起的次数,就决定了相似度的大小。

举个例子。我们把这三只鸟排成一排,分别是天鹅A、天鹅B和丑小鸭C,来看看对这三只鸟有多少种分类方法。

具体做法是我们选择一个属性,符合这个属性的就算是一类,不符合的就不算。

比如,我们选择的属性是“白色”,两只天鹅是白色的,丑小鸭是灰色的,所以根据这个属性,两只天鹅就被选中,而丑小鸭不在这一类。这个分类结果可以用(110)表示——对应三只鸟的位置,1代表你在这个分类里,0代表你不在这个分类里。

如果选择的属性是“排第一名”,那就只有天鹅A在这个分类里,分类结果就是(100)。

如果选择的属性是“不是白色”,那就两只天鹅都不算,只有丑小鸭在这个分类里,结果就是(001)。

如果选择的属性是“白色,但是不排第一名”,结果就是(010)。

以此类推。我们会发现,下面图中表示的8种分类方法,你其实都能找到一个对应的“属性”。

左边是分类结果,最右边是分类标准,也就是事先选择的“属性”。

而且对于三个物体,一共也就只有这8种分类方式。那怎么定义相似度呢?就是看这8种分类之中,这两个物体被分到同一类的有多少种。

比如说天鹅A和丑小鸭C,就在(101)、(111)、(000)、(010)这4个分类中属于同一类,那么我们就可以说天鹅A和丑小鸭C的相似度是4。同样的道理,天鹅B和丑小鸭C的相似度也是4。而天鹅A和天鹅B的相似度呢?它们为同类的分组是(110)、(111)、(000)、(001),也是4。

也就是说,丑小鸭和天鹅之间的相似度,和两只天鹅之间的相似度,是一样的。这就是“丑小鸭定理”。

一般来说,如果有N个物体,那么就一共有2的N次方种不同的分类方法,而结果还是这样,各个物体之间的相似度是一样的。

换一个说法,丑小鸭定理也可以表述成:“丑小鸭跟天鹅之间的差异,和两只天鹅之间的差异一样大。”

2 没有“客观”的分类

丑小鸭定理是1969年由美籍日本人渡边慧证明的。当初提出这个定理是计算机模式识别的要求。

比如,现在有一大堆东西,能不能给计算机一个任务,让它自动、客观地把这些东西分个类。丑小鸭定理说,这是不可能的,因为没有给出分类标准。

比如,把一群人进行分类,是按身高分、按肤色分、按学历分,还是按DNA的相似程度分?在此之前,必须先主观地给计算机一个标准,它才能进行分类。

如果没有主观标准,那根据丑小鸭定理,这些人中任意两个人的相似程度都是一样的,不管怎么分都可以。这就是“种族不存在”这个说法的最深刻含义。

如果非得把人按照种族分,这就是一种主观的、有偏见的分法。每个人都有各种属性,凭什么非得看种族呢?从这个意义上说,种族是不存在的。

但是这个批评也适用于所有的分类标准。按种族分不合理,难道按学历、按性别把人分类就合理吗?如果一定要说“种族不存在”,那么也应该说性别和学历不存在。

所以根本不存在完全客观的分类,每一种分类都是主观的——换句话说,每一种分类都是有偏见的。先有“偏见”这个属性,我们才会根据这个属性去分类。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容