一些概念
- 特征:也叫属性,对于数据实例的一些测量值。比如分类鸟的类别,鸟的体重、后背颜色这些都可以称为特征。
- 目标变量: 目标变量是机器学习的预测结果。每个训练样本都有一系列特征和一个目标变量组成。分类算法中目标变量一般是标称型的(枚举值),回归算法中是连续型的(数值)。
- 训练集:用于训练机器学习算法的数据样本集合,作为算法的输入。
- 测试集:用于算法训练完后,作为输入,根据预测值与实际值的比较来评估算法的精准度。
- 监督学习:分类和回归属于监督学习,这类算法必须知道预测什么,即目标变量的分类信息。(训练算法过程中,是能够提供实际的目标变量的)
- 非监督学习:数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为
聚类
;将寻找描述数据统计值的过程称之为密度估计
用于执行分类、回归、聚类和密度估计的机器学习算法
- 监督学习常用算法
- k-近邻算法
- 线性回归
- 朴素贝叶斯算法
- 局部加权线性回归
- 支持向量机
- Ridge回归
- 决策树
- Lasso最小回归系数估计
- 无监督学习常用算法
- K-均值
- 最大期望算法
- DBSCAN
- Parzen窗设计