统计学基础:
一、统计学是一门收集,整理和分析统计数据的方法科学。
二、目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。
三、统计学研究随即现象,以推断为特征,由部分推及全体的思想贯穿于统计学的始终。
统计学的分类:描述统计学(Descriptive statistics)、推断统计学(Inferential statistics)
一、描述统计学
1、描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。
2、通常,我们认为描述性统计是对数据样本统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的价差(例如方差或标准偏差)。
3、描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。
二、推断统计学
1、推断统计是一个有意思的名称,它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。
2、通常,我们认为推断统计是从总体分布中估计出特征值,如期望值或价差的估计等等。
3、可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。
数据描述的数值方法:集中趋势、离散程度、分布形状
一、集中趋势的测度指标:均值、中位数、众数;
二、离散程度的测度指标:极差、方差;
三、分布形状的测度指标:偏度、峰度;
机器学习
统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。学习流程如下:
机器学习三个要素:
1、模型(model):支持向量机、人工神经网络模型等。
2、策略(strategy):模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。那么策略就是误差最小。针对样本数据的误差是经验风险,但样本数目较小时不能代替数据的全部信息,故容易出现过拟合现象,即模型过度拟合小容量样本数据,从而泛化能力降低。期望风险就是针对所有数据的误差,但这里出现一个悖论,正因为存在需要预测的数据,才需要训练模型,如果所有数据的误差都能计算,那就无需训练了。故引入结构风险,就是在经验风险的基础上引入罚项(penalty term)或称正则化项(regularization),表示模型的复杂程度,以防止过拟合。
3、算法(algorithm):挑选模型的方法(等同于求解最佳的模型参数)。机器学习的参数求解通常都会转化为最优化问题,例如支持向量机实质上就是求解凸二次规划问题。故学习算法通常是最优化算法,例如最速梯度下降法、牛顿法以及拟牛顿法等。机器学习可以分为以支持向量机为代表的统计学习和人工神经网络为代表的联结主义学习。统计学习模型参数往往是可解释的,而人工神经网络就是一个黑箱(模型一定情况参数存在且未知)。
统计学在策略中检验测试的应用
学习方法的泛化能力(Generalization Error)是由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试泛化误差来评价学习方法的泛化能力。泛化误差界刻画了学习算法的经验风险与期望风险之间偏差和收敛速度。
泛化误差:在任意一个测试数据样本上表现出的误差的期望值;泛化误差=偏差+方差+噪声(generalization error=bias2+variance+noise);
偏差:描述了模型的期望预测(模型的预测结果的期望)与真实结果的偏离程度。偏离程度越大,说明模型的拟合能力越差,此时造成欠拟合。度量了模型的期望预测和真实结果的偏离程度,刻画了模型本身的拟合能力。
方差:描述了数据的扰动造成的模型性能的变化,即模型在不同数据集上的稳定程度。方差越大,说明模型的稳定程度越差。如果模型在训练集上拟合效果比较优秀,但是在测试集上拟合效果比较差劣,则方差较大,说明模型的稳定程度较差,出现这种现象可能是由于模型对训练集过拟合造成的。 度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
噪声:表达了当前任务上任何模型所能达到的期望泛化误差的下界,刻画了学习问题本身的难度。
偏差大,说明模型欠拟合;方差大,说明模型过拟合;
参考文章: