2月份的时候,因为疫情的原因在家里呆着,花了点时间通读了一本统计学方面的科普书籍:《妙趣横生的统计学:培养大数据时代的统计思维》,读完之后顿时觉得茅塞顿开,对于统计学的许多基本知识点以及图像的解读方法都有了更加深入的了解。
这本书虽然说是定位一本科普书籍,不过内容并不过分浅显,简单的四则计算不能避免,这本书的风格是完全偏向于统计学的实际应用(经济、金融、军事、生活、科研),对于许多的公式不进行具体的推导,直接用大量的示例来帮助理解。这种风格在我读本科的时候是完全看不上的,我认为应用类型的知识对理论没有很大的指导性的意义,对于数学化的定理证明或者物理的公式推导没有任何作用,充其量就是一个辅助作用。我一般就是拿起一本全是定理和推导的数学或者物理教材就开始读,然后反复读推导、写推导、接下来就是铺天盖地的机械计算;对物理书我也是这样操作,积分一个接着一个算,物理含义并不明确,但是事实上其实我走的完全就是错路和弯路。想想那时候确实思想太狭隘了,就像三岁的小孩子听大人说这个东西没用就拒绝去相信它了一样。
话说回来,自从我上了研究生之后,除了关注于理论方面的东西,我对科学应用的兴趣逐渐增加,这本统计学书,让我受益匪浅。原来因为科研需要,我想学习一下统计学相关的知识(本科竟然不开这门课!),所以我就去上海书城看了看(还好没在网上买)翻了很多书之后,觉得那些书的数学味道太浓了,所以就买了这本书,想先看一看了解一下情况再说。不过不看不要紧,我用了一段时间把书看完之后,我得出一个结论:这本书应当看两遍以上。
从这本书的目录来看,他的编排顺序基本上是按照正统的统计学教材来编排的,上来先举简单介绍统计学,说明一些统计学相关的文字概念;然后就开始循序渐进的讲述统计学方方面面的知识,从基本的平均数、中位数、方差,到正态分布,到概率的介绍,到相关性分析(科研人士的最爱,找数据相关性,计算相关系数,然后让数据强行相关),置信区间(同样是科研人士必备利器)、到样本统计,到假设检验,最后是t检验、列联表等等,可以认为是一般统计学教材实际应用版。
但是这本书还比一般统计学教材多了一步,它花了一整章的篇幅来对图表进行详细的描述和解释,比如在科研中使用非常多的直方图、条形图(这两个名称我总是搞不太清)、帕累托图、散点图、时序图,通过很多例子(数据)对每种图形都做了详细的解释说明以及注意事项,这里有几张图让我印象极为深刻,放在这里和大家一起思考图像的巨大作用:
奥运会女性分布图
这是一张有关奥运会女性参赛选手的照片,横轴是奥运会举办的年份,并且在每个年份下面标注了当年奥运会为女性开设的项目的比例;纵轴是女性参赛者的数量,除此之外,在每个时间点上,还标出了每一届奥运会上,女性参赛者占所有运动员的一个比例,可以看出的是,随着时间的不断增长:
参赛女性运动员的数量不断增多
参赛女运动员的比例不断增大,男女比例日益趋向于平等
女性能够参加的运动项目不断增大,特别是接近2000年一来,对女性的运动项目可以说全面放开
拿破仑死亡竞赛图
这张图是我这本书中最为喜爱的图,这副图依据历史上拿破仑的俄国之战的数据来勾画,本质上仍然是一副时间序列图,但是又比普通的时序图包含了更多的信息,这副图可以作深入的讨论:
图中的粗线代表的是拿破仑军队的士兵数量,开始的时候(左侧)最粗是因为远征开始的时候士兵最多,达到422000人,随着时间的流逝,士兵的数量不断减少,无法抵达圣彼得堡,最后拿破仑率领士兵返回之后,出发的422000人只剩10000人!这是一条死亡之路!(图中的一个往返折线图),这是基本的图像的思路,仔细研究,可以看到更多的细节,比如在拿破仑大军抵达莫斯科之前,由于疾病、饥饿、战争,法国每天损失上千人,例如在维贴布斯克到斯摩棱斯克,法国军队损失了30000人!而最后到达莫斯科时军队已经只剩100000人!雪上加霜的是俄国军队早已退出莫斯科,拿破仑大军无法与之交战,最终向南撤退,无功而返。除此之外还有很多细节。倘若想把这些信息表示成文字的话,又需要多少笔墨呢?
书中的应用程度不止于此,实际上他还还教会你如何使用Excel
来对实际的数据进行统计学上的分析处理,细节精确到按界面上哪个键都会告诉你。很难想象一本书可以做到这么多方方面面,要是国内的教材每章给你两三个例子就算是应用,我还记得本科学习贝叶斯公式(实际应用多的数不胜数!这个公式能够深刻说明数学的巨大用处和对生活的指导性意义),当时我只是觉得这只是又一个数学公式而已!
通过实际应用不仅能够加深对公式的理解,而且能够培养我们解决问题的能力,很多公式定理算法本质上都是在解决实际产生的问题,这本书虽然是面向大众的统计学科普书,但是我认为每一个科研人士和正在学习统计学的学生都不应该错过他,不应该因为它是一本科普书就看轻它。实际上,我认为一般科研中运用到的统计学知识(相关性分析、假设检验、正态分布以及非常重要的:如何阅读图表)这本书都已经囊括了,更为重要的是,你能够从先人进行的实验(生物学、社会学、统计学实验)或者是分析中直接学习方法本身,就是说给你一个任务或者命题,你如何去通过统计学知识验证或者否定它,比如现在新冠肺炎疫情这么严重,如果研发出了一种疫苗,你如何知道他的效果是否显著?(参见书中的“索尔克脊髓灰质炎疫苗有效性的检测实验”),这是非常重要的。生活或者科研当中不也是经常遇到这些问题吗,你有了一个想法,你想看看它是否有用?怎么判断?用经验判断吗?准确吗?能不能量化?这些问题都可以在统计学框架内得到解答。论文中时常出现的“统计学意义上显著的结论”这句话,其背后的含义是要计算所谓的p
值,通过这个值和0.05
或者0.01
比较才能说出上述的这句话。
具有重大指导性意义的在这本书中的含义得到了充分的体现,在浙大出版的《概率论和数理统计》一书中,这条定理完全以数学化的方式写出,这里不放了,放了担心让大家对统计学失去兴趣,本书的这一节可以有效的作为教材的补充理解,具体说明什么是中心极限定理,也就是讨论样本和总体的关系:随机从总体中选取某些样本,如果我选取超级多的样本(不太严谨),计算每个样本的平均值,那么这些平均值的分布会趋向于正态分布,且这些平均值的平均值等于总体平均值。我不是数学系毕业的,但是我本科自学过数学分析和实变函数,所以我看得懂教材上严谨的数学证明,可这对我理解这个公式本身的意义没有产生很大的作用。
当然一本书有优点也就有缺点,我认为一个“缺点”是这本书对数学的要求还是有的,虽然是面向大众的,但是还是要有基本的四则运算、微积分基本知识、以及一点概率知识,例如在讲述正态分布时,如果没有微积分的知识会比较难理解曲线面积和概率的关系。不过不影响对统计学整体的理解。另外一个缺点是对方差分析没有做深入的介绍。事实上,如果读者刚好在学习统计学,那么阅读这本书将会让你增加对统计学的理解,并且对统计学的实际应用产生极大的兴趣!这里还向大家推荐普林斯顿大学的统计学入门教程Statistis One
,这门课程结合了统计学分析利器R
语言来教学统计学,Coursera
上目前这门课已经结束,不过Bilibili
网站上有人上传了这门课,大家可以一查究竟。
一本书的好坏,其实不完全取决于内容本身,特别是外文书籍,翻译本身也是非常重要的一环,这本书的翻译极为地道,通篇阅读之后几乎无错词或者翻译不通顺的地方,这本书的结构不复杂,但是内容非常多,实例多就导致翻译难度加大,可以想象这本书的英文版本应该是比较厚的,但是翻译过来无论大小字部分翻译质量都非常上乘,我有时候思考,国内各种翻译书籍汗牛充栋,但是遇到一本适合好书其实不易、又要翻译过来能够流畅阅读,让人深入理解,需要相当的功底,这类书籍真的是比较稀少,阅读这本书确实是幸运的,故推荐给还不知道这本书的各位同学,尽情阅读吧!