每个人谈到统计学,都会有着不同的理解。
在刚接触统计学时,我也思考过对统计学中的概念进行定义是否有必要,后来随着统计学学习的深入,单纯把概念用几句话讲清楚实在是太浪费时间。如果在一开始就明确定义达成共识,这将会在后期的学习中极大地提高效率。
1. 到底什么是统计学?
统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
统计学又分描述统计与推断统计。描述统计是指数据收集、处理、汇总、图表描述、概括与分析等统计方法。比如从供应商、渠道等角度统计比较某段时间的销售量。推断统计指如何利用样本数据来推断总体特征等统计方法。像根据近五年的数据预测明年的销售量等。
在我接触到的数据分析小伙伴中,大多数分析师的工作集中在描述统计,这其中还衍生出了数据可视化工程师,专门负责数据的可视化展现。而在推断分析中,分析师的水平参差不齐,所用的方法也五花八门,在后面的学习中会有具体的涉及,不做展开。
2. 统计数据的类型
(1)按计量尺度分:分类数据、顺序数据、数值型数据。分类数据和顺序数据主要以文字的形式,也称定性数据或品质数据。数值型数据也成为定量数据或数量数据。定性数据与定量数据在用户研究和数据分析中均起到了重要的作用,在业务的需求上也能相互补充和论证。
(2)按收集方法分:观测数据和实验数据。观测数据主要是调查或观测得来的数据,没有人为控制。实验数据是在实验中控制实验对象收集的。
(3)按与时间的关系分:截面数据和时间序列数据。截面数据是在相同时间点上的静态数据,时间序列数据是在不同时间上收集的数据,描述了对象随时间变化的情况。
3. 几个基本概念
(1)总体:包含研究个体的集合,一般统计学上的总体是针对无限总体的,因此也把总体看做随机变量。
(2)样本:总体中抽取一部分元素的集合。元素的数量称为样本量。
(3)参数:描述总体特征的概括性数字度量。如总体平均数、总体标准差、总体比例等。
(4)统计量:描述样本特征的概括性数字度量。如样本平均数、样本标准差、样本比例等。
(5)变量:说明现象的某种特征,具体的取值称为变量值。例如:销售额20万元。销售额为变量,20万元为变量值。变量的分类分成分类变量、顺序变量和数值型变量,其中数值型变量又分为离散型和连续性。这与按计量单位分类的统计数据是统一的。
了解了统计学是什么,接下来就可以更清楚地理解描述统计与推断统计了:)