子夏曰:“博学而笃志,切问而近思,...”
——《论语》、复旦大学校训、博学系列书籍卷首语
如果说是否有一门课任何专业的学生都需要上,那么这门课毫无疑问是《英语》。如果说是否有一门课任何自然科学专业的学生都需要上,那么我想这门课是《统计》。
学习统计,我想首先需要的就是教材等学习资料,但是我们在找统计教材的时候总是会碰到如下问题:1.不实用,2.没有证明(信手拈来一个公式一个定理,并抛出一个异常,让我感觉不知所云),3.看不懂(很多公式的证明引入了太多数学知识,很不直观!)。确实不少教材要么没有用数学公式,要么采用严密的数学公式给人一连串黑人问号!所以这次我想借着我们整个生科院一起上《生物统计》课程的机会,利用起这个论坛,有交互式地更好地学习!联系之前学习的境界,我希望能达到第三重学习境界!
生物学是一门实验科学,也是一门技术主导的科学。不管你从事的是生物学的哪一个分支(哪怕是计算生物学与非应用生物信息学),都不可能完全脱离实验,而实验所得到的的结果几乎无一例外地都带有或多或少的不确定性,即实验误差。在这种情况下,不用统计学而想要得到正确的结论是不同可能的。
1. 关于什么是统计的见解
- 在人们的生产实践中,人们需要去判断一系列的问题,但是这一类问题都只能得到我们所关心的事情的不完全信息,或者是单个实验的结果有某种不确定性,我们需要从这些问题中得出合理而又可靠的结论。有统计学家坦言:“统计学就是从不完全的信息里取得准确知识的一系列技巧!”。当然我觉得说它是一门学科比较合适: 统计也就是研究如何从有限的样本出发去更好地估计总体性质的学科!它的目标就是由样本去推断总体!
- “Statistics is the science whereby inferences are made about specific random phenomena on the basis relatively limited sample material !”
2.关于统计的一些特点
- 统计——可以分为“概率论与数理统计”和应用统计,我们生物学人接触到的一般都是应用统计,严格来说它不是数学,所以它的精确性弱于数学。
- 统计需要一些尝试性的主管判断,它其实是一门半经验科学。
3.关于《生物统计》的课表
本学期的课表主要可以分为三部分内容:一、概率论与数理统计初步;二、R语言初步与假设测验;三、一些最基本的分析;四、统计学习
关于统计学习:
陈洛南老师的这个统计学习,如果我加上一个词,大家肯定会非常熟悉:统计机器学习。没错,统计学习也称为统计机器学习(statistical machine learning)[参考1]。
“现在计算机和网络的飞速发展完全改变了人们的学习、工作和生活方式”。统计机器学习方法是实现计算机智能化的有效手段。应用领域非常广泛,包括数据发掘、图像识别和生物信息。
那有些人可能会好奇:除了统计学习还有什么学习?毕竟在统计学习也是,至少是21世纪才流行起来的理论、方法与技术,那么之前流行的是什么?还有一个叫做符号学习等知乎上有一个比较好的回答,笔者之前也看过《数学之美》,确实在自然语义处理上存在从符号(基于规则的)学习到统计学习的演变过程。
好,下面还有一个重要的问题:那有没有不用学习的模型?因为统计学习也就是我们用数据去学习一个模型,然后用这个模型去预测结果。现在非常流行的学习方式(人工神经网络)不仅需要学习,还是一个黑箱。那有没有不用学习的白箱模型?有的,笔者现在就在上《系统论》,之前建立的一些微分方程的模型就是典型的白箱模型。但是现实的世界实在太复杂了,不可能像牛顿力学一样f = ma就解决问题。对于生物来说就更加复杂了!其实有计算机大牛也说过黑箱式地机器学习本质其实也是拟合一个方程(同系统论中构建的方程一样),只不过不能显式地拿出这个方程来。在实际运用中确实我们也不需要把它拿出来!
5.关于统计的白话文理解与计算机demo的资源
根据我现在的学习经验,可以把现在的学习资料分成这三种:
- 专业文献型:这种资料是表述最严谨,但同时也是看起来最枯燥最难懂的。
- 正规教材型: 一般作者都会把若干文献的结果汇总,整理成一本书,我们高中与本科所用的教材就是种类型。
- 白话文型: 这种学习资料常见于微信推送和个人网站与博客上面,作者一般能用很生活化的语言来解释知识。
同时还有很重要的一点:就是现在计算机这么发达,有一些比较好的自媒体上(如微信订阅号、个人博客和个人网站),即使是非数理专业背景出生的人也往往能够利用计算资源,非常直观地展示一些高深难懂的理论!
下面列举一些我看到的比较好的资源,专业文献的话我不是统计专业的学生,所以暂时就不列举了。
5.1 正规教材
现在暂时就使用李春喜主编的《生物统计学》与Befnard Rosner的《Fundamentals of biostatistics》!
5.2 关于世界观与价值观
在科学研究中你注重什么?把什么当成最终的目标?或者把什么当做工具?这随不同专业而又所不同。举个最经典的例子:如果你是一个细胞生化所的一个学生,那么你的价值观肯定是利用一切研究手段找到有功能的基因、阐释一种机理。而生物信息中的一些计算方法只是一种工具而已,你可以从很多种不同的方法中选择能得到你想要答案的方法!
同样,如果你是一个计算所做方法的学生,那么你肯定比较看重你的方法,而对实际产生数据的应用则是比较末端的东西。
好,那么我们来看看,统计专业学生的一篇微信推送《作为世界观的统计》!大牛总结了统计的七大支柱思想,作者最后的升华也着实能感染到人!其中“回归”这个概念,它一开始出现于高尔顿研究身高时,发现孩子身高会有向父辈身高均值回归的现象,同时这也是一种看待世界的思想!
5.3 个人网站
我知道网站有一大堆,我这边先罗列一个我近期看到比较好的地方!
因为统计的一个核心问题是用样本去估计总体:所以参数估计的是一个很重要的议题。我们如何去估计(点估计与区间估计)?我们如何去衡量估计的好坏?。这个网站中的一篇参数估计我觉得写得简洁而又不失饱满性。可以一看!
5.4 微信订阅号:
马同学高等数学中的统计系列与经管之家都很不错。
- 马同学为什么正态分布如此常见? :讲述了一个非常有趣的高尔顿钉板实验。后面的扯淡也非常的幽默诙谐,我读了之后没有一种苦涩的感觉。
- 经管之家但转载自统计之都正太分布的前世今生(上)与正太分布的前世今生(下):这两篇文章水准真的挺高,是比1更加严谨学术的描述。我看了之后真佩服作者,我觉得这两篇文章有三点可供欣赏:1. 言之有据:作者引经据典,难能可贵他从不同角度推导正太分布;2. 言之有理 :话语间充满论证关系;3.言之有道:作者的解说还充满了一些宏观的能感染人的话,写作很有文笔。
- 马同学高等数学如何理解切比雪夫不等式:利用年薪百万的话题,通俗讲解改不等式!
- 马同学高等数学为什么样本方差的分母是 n-1:我本科纠结了很久,一句话,为了满足参数估计的无偏性。
其他还有如何理解P值,如何理解假设测验,置信区间等很好通俗易懂好文章!
现在我分享一下我看到的这些资源,希望大家可以把好资源透露在评论区!
当然我希望大家可以通过这门课程的学习,能够掌握常用统计方法,尤其是它们的条件、适用范围、优缺点等,从而能够应用它们去解决生产实践中遇到的问题。
最后,我放一张我十分喜爱的图片!
书籍绪论参考资料
- 《统计学习方法》,李航著。
- 《实用生物统计》,李松岗著。
- 《生物统计学基础》,孙尚拱译。
- 《生物统计学》,李春喜著。
- 《FUNDAMENTALS OF BIOSTATISTICS》, Bernard Rosner