基本概念

示例/样本/特征向量：关于一个事件或对象的描述，可能为数值也可能为离散值，通常表示为（颜色=白，种类=鸟，喙=尖嘴，体重=23kg）
属性值：反应事件或对象在某方面的表现或性质的描述，类似白，鸟，等
数据集：一组示例/样本的集合
属性空间/样本空间/输入空间：以属性值为坐标轴，构成的多维空间，样本值为数据点，每个样本都能在其中找到属于自己的位置
维数：通常是属性的数量，例如上例，共有颜色、种类、喙、体重四种属性，则构成的样本空间维数为4
学习/训练：从数据/样本集中，通过学习或训练抽象出模型的过程
训练集和训练样本：用于训练模型的样本是训练样本，训练样本的集合是训练集
假设/学习器：指训练出的模型，因为是从数据集中抽象推断出的一般规律，因此称为假设
真相/事实：是指数据实际上遵循的分布规律，是一种客观事实
标记：是示例的结果信息
样例：有结果信息的示例称为样例
标记空间/输出空间：所有样例的空间
分类&回归：分类主要针对预测值为离散值的数据，例如通过各类特征值判断猫狗，回归主要针对预测值为连续值的数据，例如预测一周的温度
二分类&多分类：只涉及两个分类类比的称为二分类，有多个分类类别的称为多分类
测试和测试样本：用于测试训练出的模型效果的样本称为测试样本
聚类：根据特征和样本间的相似性，可以将样本分为多个组，每个组称之为簇，这类样本通常不具有标记信息
监督性学习&无监督性学习：通常有标记信息的是监督性学习，无标记信息的是无监督性学习
泛化：是指将训练出的模型用于新样本推导的能力
分布：通常一个样本空间的数据会遵循同一个分布（但真实数据集中往往有噪声存在）
归纳&演绎：归纳是指从特殊向一般演化的过程，如归纳出一般公式的过程，演绎是指从一般向特殊演化的过程，如从许多公式推导出一个特定情况下的公式

归纳偏好

在训练模型时，常常会出现多个与训练集分布一致的假设，为了分类结果的唯一性，需要对这多个假设进行选取，选取假设的趋向就是归纳偏好

NFL理论：当一个算法在某些样本集上表现良好时，他必然在另一些样本集上有所欠缺 --》比较算法优劣需要基于具体的问题而谈

过拟合&欠拟合

过拟合：在训练集中过于追求精准度，导致一些特性也被模型算为一般性特征的情况，例如：训练集中所有的猫都是白猫，所有的狗都是黑狗，那么模型可能会在对测试集/真实数据进行判断时，将黑猫也判定为狗
欠拟合：是指在训练过程中因为训练程度不够，学习器学习能力低下而导致的模型准确性不高，这种通常更容易解决，例如神经元算法中可以多加几个节点或几层隐层

评估模型效果的方法

测试误差：指模型在测试集中的预测结果与事实之间的误差，通常也作为泛化误差的标准
1. 留出法
将所有数据中部分样本留为测试集，剩下的部分用于训练
ps：为了避免数据划分影响数据分布，通常需要采用分层抽样的形式，使测试集和训练集中的数据都与原数据集分布保持一致。此外为了保证结果的稳定可靠，通常需要多次采样后取平均值作为测试误差

2. 交叉验证
将数据分为k个子集，每次用k-1个子集作为训练集，1个子集作为测试集，最终的测试误差为所有结果的均值
ps: 特殊情况，当对n个样本的数据集进行k折（k=n）交叉验证时，为留一法，通常被认为是准确度较高的验证方法，但当数据量大时难以适用

3.自助法
针对m个样本的数据集进行采样，每次抽样后放回，重复m次后，将未取到的样本作为测试集
ps：通常用于数据量太小，难以划分训练/测试集的情况，但因为改变了数据分布，可能引入估计误差，并不常用

调参

通过调整参数，改善模型性能的行为
调参 vs 算法选择

算法选择是离散值，而参数通常是实数范围取值，很难选取到最佳值，因此往往在一定范围内以步长测算，选取相对性能较好的数值
模型选择和调参通常应用在验证集上

性能度量

错误率 & 精度

错误率：分类错误的数据在总样本中的比例
精度：分类正确的数据在总样本中的比例

查准率、查全率、F1

查准率Precise：真正例在所有预期正例中所占的比例
查全率Recall：真正例在所有实际正例中所占的比例
F1：2*TP/(样例总数+TP-TN)

机器学习-西瓜书1-2章学习总结