一、统计学习以及监督学习概论:
1.统计学
1.1.定义:
是一门关于计算机基于 数据构建概率统计模型并运用模型对数据进行预测与分析 的学科。
1.2.特点:
- 以计算机及网络为平台,并建立在他们俩上;
- 以数据为研究对象,是数据驱动的学科(假设同类数据有一定统计规律性);
- 其目的为对数据进行预测与分析;
- 以 方法 为中心,构建模型并应用它来进行预测与分析;
- 是一门涵盖多个领域的交叉学科(连学科都要内卷)。
1.3.目的:
让机器从数据中学习一些知识,再从中进行预测(从已知到未知 )
1.4.实现步骤:
- ①得到一个有限的训练数据集合(用于训练);
- ②确定包含所有可能的模型的假设空间——模型;
- ③确定模型选择的准则——策略;
- ④实现求解最优模型的算法——算法;
- ⑤通过学习方法(就是②到④)选择最优模型;
- ⑥利用⑤对新数据进行预测/分析(实际应用 )
2.统计学习的分类

统计学习的分类方式
2.1.基本分类
分类方式:根据学习的数据中所包含的标注信息来区分。
(1)监督学习:
从标注数据中学习预测模型的机器学习问题。其本质为学习输入到输出的映射(两个集合中元素相对应关系)的统计规律。
- 预测模型: 对给定的输入产生相应的输出(映射);
- 输入/出空间: 输入/出的 所有可能取值 的集合;
- 特征空间: 所有 特征向量 存在的空间,其每一维对应于一个特征,有时候假设输入控件与特征空间为相同的,而有时会假设不同(核技巧);
- 实例: 每个具体的输入,通常由特征向量表示;
- 样本: 输入与输出对——回归问题 是 输入/出皆为连续变量 的预测问题、分类问题 是 输出变量为有限个离散变量 的预测问题,而 标注问题 是 *输入/出变量结尾变量序列(多个变量)的预测问题;
- 基本假设:假设输入与输出的随机变量X和Y都遵循联合概率分布P(X,Y)
- 学习目的: 找到最好的由输入到输出的映射模型

监督学习流程图
通过学习所得模型分为 *条件概率分布P(Y|X)或决策函数Y=f(X)
那么预测系统对于给定的预测输入x n+1则由模型y n+1 = agr max(y) P(y|x n+1)/ f(x n+1)给定相应的输出(取max是为了确保可能性最大的)
*** (2)无监督学习:***
从无标注数据中学习预测模型的机器学习问题。其中,无标记数据是指自然得到的数据(只有输入,而输出为潜在数据)。其 本质 为学习数据中的统计规律或潜在结构。
- 预测模型: 表示数据的类别、转换或概率;
- 输入和输出空间可以是 有限元素集合 或 欧氏空间(赋予了一些运算的集合);
- 输入为实例,用 特征向量 表示,而输出则是 对于输入的分析结构;
- 作用: 可以用于对已有数据的分析,也可以用于对未来数据的预测;
-
学习过程: 学习系统从训练数据集学习,得到一个最优模型表示为函数z=g(x),条件概率分布P(z|x)或P(x|z);
无监督学习流程图
*** (3)强化学习:***
指的是智能系统在与环境的连续 互动 中学习最有行为策略的机器学习问题。本质 是学习最优的序贯决策。

强化学习流程图
- 流程: 在每一步t,智能系统从环境中观测到一个状态st与一个奖励rt,采取一个动作at。而环境根据智能系统选择的动作,决定下一步t+1的状态st+1与奖励rt+1;
- 目标: 长期累积奖励的最大化。
1.3统计学习方法三要素
方法 = 模型 + 策略 + 算法
1.3.1 模型
在 监督学习 中,模型就是索要学习的条件概率分布或决策函数。
- 若讲假设空间F定义为决策函数的集合:
F = {f|Y= f(X)} (f(x)=w(1)x(1) + ... +w(n)x(n)
这时F通常由一个参数向量决定的函数族:
F={f|Y=fθ(X),θ ∈ Rn}
其中参数向量θ取值于参数空间Rn(n维欧氏空间); - 若讲假设空间F定义为条件概率的集合:
F={P|P(Y|X)}
这时F通常由一个参数向量决定的分布族:
F={P|Pθ(Y|X), θ∈Rn}
Rn同上。
1.3.2.策略
按照什么样的准则学习/选择最优模型 (即学习目标)
(下面好多都是算式,就这样吧)
