机器学习和统计学基础

统计学基础：

一、统计学是一门收集，整理和分析统计数据的方法科学。

二、目的是探索数据内在的数量规律性，以达到对客观事物的科学认识。

三、统计学研究随即现象，以推断为特征，由部分推及全体的思想贯穿于统计学的始终。

统计学的分类：描述统计学（Descriptive statistics）、推断统计学(Inferential statistics)

一、描述统计学

1、描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。

2、通常，我们认为描述性统计是对数据样本统计值的计算，以便总结数据样本的属性，例如共同的期望值（例如平均值或中值）和数据的价差（例如方差或标准偏差）。

3、描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。

二、推断统计学

1、推断统计是一个有意思的名称，它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。

2、通常，我们认为推断统计是从总体分布中估计出特征值，如期望值或价差的估计等等。

3、可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具，其中检验的基本假设称为零假设。有许多推断统计方法的例子，为增加测试数据的正确性，我们可以对假设的范围做出限定。

数据描述的数值方法：集中趋势、离散程度、分布形状

一、集中趋势的测度指标：均值、中位数、众数；

二、离散程度的测度指标：极差、方差；

三、分布形状的测度指标：偏度、峰度；

机器学习

统计机器学习是基于对数据的初步认识以及学习目的的分析，选择合适的数学模型，拟定超参数，并输入样本数据，依据一定的策略，运用合适的学习算法对模型进行训练，最后运用训练好的模型对数据进行分析预测。学习流程如下：

机器学习流程

机器学习三个要素：

1、模型(model)：支持向量机、人工神经网络模型等。

2、策略(strategy)：模型的分类或预测结果与实际情况的误差(损失函数)越小，模型就越好。那么策略就是误差最小。针对样本数据的误差是经验风险，但样本数目较小时不能代替数据的全部信息，故容易出现过拟合现象，即模型过度拟合小容量样本数据，从而泛化能力降低。期望风险就是针对所有数据的误差，但这里出现一个悖论，正因为存在需要预测的数据，才需要训练模型，如果所有数据的误差都能计算，那就无需训练了。故引入结构风险，就是在经验风险的基础上引入罚项(penalty term)或称正则化项(regularization),表示模型的复杂程度，以防止过拟合。

3、算法(algorithm)：挑选模型的方法(等同于求解最佳的模型参数)。机器学习的参数求解通常都会转化为最优化问题，例如支持向量机实质上就是求解凸二次规划问题。故学习算法通常是最优化算法，例如最速梯度下降法、牛顿法以及拟牛顿法等。机器学习可以分为以支持向量机为代表的统计学习和人工神经网络为代表的联结主义学习。统计学习模型参数往往是可解释的，而人工神经网络就是一个黑箱（模型一定情况参数存在且未知）。

统计学在策略中检验测试的应用

学习方法的泛化能力（Generalization Error）是由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。现实中采用最多的办法是通过测试泛化误差来评价学习方法的泛化能力。泛化误差界刻画了学习算法的经验风险与期望风险之间偏差和收敛速度。

泛化误差：在任意一个测试数据样本上表现出的误差的期望值；泛化误差=偏差+方差+噪声（generalization error=bias2+variance+noise）；

泛化误差公式

偏差：描述了模型的期望预测（模型的预测结果的期望）与真实结果的偏离程度。偏离程度越大，说明模型的拟合能力越差，此时造成欠拟合。度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力。

偏差公式

方差：描述了数据的扰动造成的模型性能的变化，即模型在不同数据集上的稳定程度。方差越大，说明模型的稳定程度越差。如果模型在训练集上拟合效果比较优秀，但是在测试集上拟合效果比较差劣，则方差较大，说明模型的稳定程度较差，出现这种现象可能是由于模型对训练集过拟合造成的。度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

方差方式

噪声：表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。

偏差大，说明模型欠拟合；方差大，说明模型过拟合；

参考文章：

浅谈对统计机器学习的认识

机器学习和统计学的“爱恨情仇”可以结束了

理解方差、偏差且其泛化误差的关系

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,504评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,434评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,089评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,378评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,472评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,506评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,519评论 3赞 413
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,292评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,738评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,022评论 2赞 329
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,194评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,873评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,536评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,162评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,413评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,075评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,080评论 2赞 352