【通识课学习日志】
本训练营:林超所长的通识课
今日主题:第十二课 概率统计学重要模型
学习日期:2022年9月17日
本课能量金句:生命中最大的喜悦是付出,因为除非你给予,否则你将永远挣扎着过日子。献上最好的自己,付出你的爱,因为它是吸引人生所有财富的磁铁,而你的人生将比你想象的还要富足,因为当你付出爱时,就是在实现人生的全部目标。
——朗达·拜恩《力量》
引言:概率论的部分结论是反直觉的。比如如果一个运动员连续3次药检呈阳性,那么根据常识判断,这个运动员一定百分之百使用了禁药,但通过严格的概率测算即便3次阳性的情况下,这个运动员使用禁药的概率可能依然只有45%,就是他只有不到一半的概率使用过禁药。
*链接——李笑来《把时间当做朋友》第四章 学习
“学习”最关键的一点是:任何知识的获取,都是不可逆的。在知道它的那一瞬间,它就已经改变了一切,生活因他而变,却无法还原。我们再也不可能对它视而不见、听而不闻、置之不理,它瞬间就能根深蒂固,无法铲除。例如,那些学过概率统计的人,在一般情况下是没办法掏钱买彩票的,因为买彩票这种行为在他们眼里是对自己智商的侮辱。但与此同时,彩票是世界上最畅销的商品(没有之一),可见有多少人一生都未曾有机会了解那些重要的知识。
歪个楼:感谢所长林超的系列课程,这二十多节的通识课让我对已知的知识进行了巩固,对未知的知识进行了探索。就像笑来老师说的那样,这些知识正在不知不觉中改变着我对世界的认知,对我自己的认知。谢谢所长~同时也谢谢认真努力记笔记,认真思考求索的自己。
1. 贝叶斯公式
1.1定义
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中:
(1)条件概率:
P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:P(AlB)=P(AB)/P(B)
(2)贝叶斯公式:
P (B/A)是根据A参数值判断其属于类别B的概率,称为后验概率。P (B)是直接判断某个样本属于B的概率,称为先验概率。P(A|B)是在类别B中观测到A的概率,P(A)是在数据库中观测到A的概率。
(3) 举例:还是举引言中提到的例子,如果一个运动员使用禁药的概率是1‰,使用禁药被检测出来呈阳性的概率是95%,而药检为阳性其实并没有使用禁药的概率是10%,那么每一次药检呈阳性可以推断他真正使用禁药的概率如下图所示。
这里特别注意一个点,也是刚刚才想明白的,视频中林超所长提出的误诊率如果不加以剖析就会理解错误。“误诊”其实有两个维度,第一个是使用禁药但检测结果呈阴性,根据前面的条件(使用禁药且检测结果呈阳性的概率是95%),这个事件的概率就是5%;而药检为阳性其实并没有使用禁药也算是一种误诊,但是它的反面是没有使用禁药且药检为阴性,根据前面的条件(药检为阳性其实并没有使用禁药的概率是10%),这个事件的概率就是90%。这是两个完全不同的概念,要注意区分,不要被绕进去了。
1.2为什么学
为什么要学习贝叶斯公式呢?当然是为了不被幸存者偏差所迷惑,更加客观地看待出现的证据和现象。
幸存者偏差(Survivor bias),是一种常见的逻辑谬误。指只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。日常表达为 “沉默的数据”、“死人不会说话” 等。贝叶斯公式可以用来消除幸存者偏差。贝叶斯公式用来描述两个条件概率之间的关系,是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
所以判断一件事情发生的概率需要弄明白两件事:
①这件事情被误判的可能性有多大;②这件事在真实世界里面发生的概率有多小。
1.3贝叶斯公式带来的启发
①先验概率非常重要。一般来说量级的差距很难超越,比如一个公司的收入规模是5000万,另一个公司的收入规模是6000万,后者比前者其实没有多大的实质性优势;但如果一个公司的收入规模是5000万,而另外一家单位的收入规模是10亿,后者比强者的优势就不是一个量级的,因此也是一种压倒性的优势。
②贝叶斯公式是数学版本的辩证法,一方面既要很冷静地看待事物的基础概率,不要被表面现象所迷惑,另一方面也要在新证据、新信息不断积累的时候,及时调整对全局的评估。如果证据在不断出现,那说明概率在倍数级增长。
2. 均值和异常值
2.1定义
①均值:统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
②异常值:是指一组测定值中与平均值的偏差超过两倍标准差的测定值;与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
2.2对异常值的处理方式
①把它们舍弃掉。
这种处理模式的假设是,世界是稳定的,最主流的观点是最正确的。比如选手比赛是参赛评委的评分一般要去掉最高分和最低分,因为考虑到评委有可能会因为自身的喜好影响专业性。
②把它们跟其他数值一视同仁。
③把他们作为一个单独的集合去研究。
这种处理模式的假设是,世界是不稳定的。
比如国家叫停支付宝上市,在互联网行业发展的过去20年来看,这件事属于异常情况,是典型的异常值。起初有些学者解读为是国家在整顿互联网金融行业,或者是国家对头部互联网公司的约束,使其不要过渡扩张,对整个互联网金融业不会有太大的影响,这种思考的方式就是去除异常值的方式;但之后我们连续看到风投支持的各种互联网公司、教育公司的各种大调整,才发现最初的那个异常值其实是一个前奏,它预示着一个新的国家监管时代的到来,而这背后更加是一场百年不遇的全球大变局。在2020年以来各种旧秩序不断打破重建,在基础概率大幅变动的基础下,异常值影响最终判断结果的程度也变高了,因此要适当关注那些异常值。
3. 大数定律
3.1定义
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。
其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。
3.2大数定律带来的启发
在小数据阶段,大道理可能毫无价值。比如在学校的时候听到要运动不要抱怨觉得是没有用的废话,但是在社会上混了一段时间才发现这些大道理确实对执导日常生活有着很明显的价值。这就是因为大道理是历经了很多年积累和沉淀下来的,但是如果一个人经历的事情太少,这些事情会带有一定的偶然性从而让我们忽略真理的必然性。
因此要保持耐心,保持尝试的心态但是要不断进行复盘,在复盘中总结真理。
4. 概率分布
4.1幂律分布
描述幂律分布的词汇有很多,比如马太效应、赢家通吃、二八定律等等。这其实是我们的世界观,影响的是我们看世界的底层假设——世界到底是平均的还是极端的,如果我们认为这个世界是极端的,那么我们就必须努力让自己在某个细分领域做到极致的好,这样才能在极端世界里取得高回报。
荐·视频《钱收割人的时代六大新生存法则》、《疫情之后的新世界》
4.2正态分布
4.1基本概念
①方差:是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。是衡量源数据和期望值相差的度量值。
②标准差:数学术语,是离均差平方的算术平均数(即:方差)的算术平方根。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。
标准差能反映一个数据集的离散程度。
4.2举例
①下图中蓝色线所描绘的数据更加集中,离散程度小;而黄色线所描绘的数据比较分散,离散程度大。它们的现实意义,两支武力平均值一样的队伍,蓝色线是可以看成是受过训练的正规军,而黄色线可以看成是江湖人士。受过训练的正规军武力值差异不大,武力值过强或者过弱的人都极少,随便挑出一个都能打;但是江湖人士则不同,他们的武力值差异很大,随便挑出一个人,这个人很能是一个很弱鸡的草莽,也有可能是一个武功盖世的英雄。
②方差代表了结果的离散程度,也可以看成一个人发挥的稳定性。
比如上图两面的四个人,得分最高的是C,其次是D,再次是B,最后是A。这个图片把它引申到生活中,也对应四种人:
这张图对我们的启发是,要做一个聪明且坚定的人,同时拒绝做一个坚定且愚蠢的人。
结合前面提到的贝叶斯定理和大数定律,一个人在年轻的时候,我们通常因为自己眼界的局限,对世界的理解是有偏颇的,所以容易陷入坚定而愚蠢的状态,这个时候我们需要开放心态,让自己变成一个不坚定的愚蠢的人,去拥抱新证据、接纳异常值,然后逐渐变成一个不坚定且聪明的人,再然后集中在能够发挥自己价值的优势区域中变成一个坚定且聪明的人。但是这还没有完,因为随着世界的变化,代表真理的圆心会发生偏移,我们要进行下一轮的循环,避免让坚定的聪明变成坚定的愚蠢。