该问题作为之前提到的两孩悖论的一个进阶版本,最早由加里·福希在2010年的纪念马丁·加德纳的“加德纳集会”上提出,该问题如下:
“我有两个孩子。其中一个是男孩,出生在星期二。请问我有两个男孩的概率是多少?”
乍一看出生在星期几似乎跟性别似乎搭不上半点关系,加里·史密斯在《简单统计学》一书中也表达了类似的观点,他认为这和星期二没有任何关系。如果星期二能够改变,那其它星期几都一样,但这个孩子一定会出生在一周里的某一天。因此,他认为福希是错误的。这一天是星期几并不重要。他认为这道题的答案还是1/2。这和之前两孩悖论的思路其实是类似的,即如果任一条件对结果都所产生的影响,那这些条件就不重要,应该被排除在概率计算之外。
但显然贝叶斯流派并不这么认为,他们提出了该题的答案——13/27。让我们来看一下推导思路。首先,让我们掠过两孩情况的初始样本空间,直接加入其中一个是男孩这一条件,这道题就变成了两孩悖论,只不过把女孩变成了男孩,此时两个男孩的概率:
然后加入了已知男孩是星期二的条件概率,这时我们就需要对每一种可能的分布情况做进一步分析:已知男孩为星期二,但是由于不知道是哥哥还是弟弟,因此又可以分为两种情况,此时样本空间又变为4,让我们来看一下每一种情况的可能性:
已知星期二男孩为哥哥,另一个是妹妹,由于一周有7天,因此该样本分布的可能性是1乘以7,等于7;
已知星期二男孩为弟弟,另一个是姐姐,同理该样本分布也是7;
同理已知星期二男孩无论为哥哥还是弟弟,另一个是弟弟或哥哥的情况也都是7,但是这里必须考虑一个情况,就是当兄弟俩都出生在星期二的时候,这属于同一种情况在两种分布下重复计数,需要减去1,因此最终得出的结果就是:
这个答案虽然很接近1/2,但还是存在本质区别:加里·史密斯一方所代表的频率流派的观点,即概率是一个客观存在的固定值,出生日期和性别之间本身属于独立且不相关事件,相互之间不存在任何影响。而贝叶斯流派却不这么认为,该方法会先通过主观先提出一个先验概率,然后通过加入条件概率来修正,形成的后验概率又作为新的先验概率然后加入新的条件再不断修正,最终接近事物本身真实的概率分布。因此每一个条件的描述显得至关重要,因为会改变样本空间的改变。比如这里的已知男孩在星期二出生的条件表明,在已经观测过孩子性别和出生日期的情况下,排除了两个都是女孩和两个都不出生在星期二的情况。我们就需要在此基础上对概率进行重新计算,这也正是机器学习的基本思路之一。
历史上贝叶斯流派由于其主观性曾一度充满争议,围绕这个问题或许还会有许多争论,但无论如何,这对于我们整个人类文明的进步和计算机以及人工智能领域的发展,都有着深远而又广泛的影响。