动机
这篇文章作为入门统计学的总结, 先对统计学概貌有一个整体的理解,再根据实际需要展开知识点的学习。
为什么要学习统计学
统计学不仅是一种方法,也是一种思维方式, 是认识世界的一种思维方式。
陈希孺院士说过
统计学不仅是一种方法或技术,还含有世界观的成分——它是看待世界上万事万物的一种方法。
在学习统计学的过程中,学得不仅仅是方法或技术, 更是要注重于培养统计思维。
陈希孺院士说过
统计思想的养成,不单需要学习一些具体的知识,还要能够从发展的眼光,把这些知识连缀成一个有机的、清晰的图景,获得一种历史的厚重感。
什么是数理统计学
了解一个学科, 第一个要提的问题就是:这个学科是什么?
那么什么是数理统计学呢?
数理统计学的定义如下:
数理统计学是这样一门学科:它使用概率和数学的方法, 研究怎样收集带有随机误差的数据,对这种数据进行分析,以对所研究的问题作出推断
从统计学的定义看出, 研究对象是随机误差数据,随机误差就代表数据的不确定性,而概率论就是对不确定性的研究。可以看出统计学的发展是以概率论为基础。
统计学还涉及了数据的收集、整理和分析的基本过程。 从这个三个过程出发,窥探每个过程研究的基本问题以及知识点, 有一个全貌的认识。
数据的收集
两大数据收集方法:观察和试验。
得明白最基本的概念:总体 、样本。
数据收集的关键点在于如何进行抽样? 有哪些基本的抽样准则? 最常见的抽样方法有哪些?
最基本的抽样准则就是:随机抽样。得充分理解什么是随机抽样,以及这个法则如何应用 各个抽样方法中。
抽样这一块已经建立了一套完善体系, 如果在后续的工作或者研究中涉及这一块, 再进行深入研究也不迟!
数据的整理
直方图是最基本的数据整理方法, 通过直方图可以形象得展示数据分布。
除了基本的图形,还可以通过统计量去描述数据的整体性质。一维变量的统计量, 如:均值、中位数、方差等。多维变量的统计量, 如:协方差,相关系数。
多维变量的统计量需要深入展开学习。
统计推断
统计推断最基本的两个方向: 参数估计和假设检验。
参数估计
参数估计解决的问题是:通过样本的统计量得到总体的统计量。如: 通过样本的均值 作为总体的均值。
但是问题在于:样本估计的统计量是否能够较好的反映总体统计量。 而数理统计学建立了一套理论体系去解决这个问题。
假设检验
假设检验解决的问题是:利用已有的观测数据,基于统计学原理,对某一命题的真假判断。
解决问题时 , 先做出一个基本的假设。 如果统计分析的数据支持这个假设, 那么假设为真。 如果分析的数据不支持这个假设, 那么这个假设为 假。
统计学的应用
统计学的应用广泛, 最开始是应用于农业和生物学领域,扩展到经济学、社会学、工业。 而目前的大部分机器学习算法也是基于统计学原理。 统计学的应用如此广泛, 学习统计学, 就是培养一种思维方式。
推荐的书籍
《统计学概貌》:陈希孺院士写的书,对什么是统计学有一个整体的认知。
《女士品茶》: 一本统计学科普书, 对统计学的发展以故事的形式娓娓道来。
《数理统计学简史》:还是陈希孺院士写的书。 这本书教我们以发展的眼光去了解统计学,了解统计学的来龙去脉,更是了解统计学的思想。