【豆子的学习】-机器学习篇一
最近开始学习机器学习,就写写东西来记录一下自己的学习路线吧。
首先什么是机器学习?
“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E” ——Tom M. Mitchell
Tom M. Mitchell在1997年定义机器学习,如果一个计算机程序在某类任务T上,以P衡量的性能随着经验E而完善,那么这个计算机程序从经验E学习。
机器学习的理论涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,核心的要素是数据、算法和模型,主要任务是通过算法的设计,使机器能够模仿人类的学习,从数据中获得知识经验,并利用它们来预测未知预测。
机器学习分类
机器学习主要分为以下四类:
1.监督学习:从有标记的训练数据中学习一个模型,然后根据这个模型对未知样本进行预测。
2.无监督学习:输入的样本不需要标记,自动从样本中学习特征实现预测。
3.半监督学习:监督学习和无监督学习结合的一种学习方法。
4.强化学习:通过观察来学习做成什么样的动作。每个动作都会对环境有影响,在根据观察到的环境的反馈来做出判断。
机器学习主要任务
根据机器学习的任务来分析,主要可以分为回归、分类、聚类三种任务。
1.分类:
分类算法是应用规则对记录进行目标映射,将其划分到不同的分类中去,分为两级分类和多级分类。分类使用监督学习的算法,常见的算法有:
Logistic回归和多项回归
神经网络
决策树
SVM(支持向量机)
贝叶斯分类器(例如朴素贝叶斯)
最近邻方法(例如,k-NN或k-Nearest Neighbors)
2.回归
回归分析是一种研究自变量和因变量之间关系的预测模型,用于分析当自变量发生变化时因变量的变化值,要求自变量相互独立。回归也都使用监督学习的算法,有:
线性回归
局部加权回归
岭回归
Lasso回归
CART回归树
3.聚类
聚类则是基于无监督学习的分析模型,不需要对原始数据进行标记,按照数据的特征进行聚集从而形成簇群,实现数据的分离。聚类算法可以分为基于层次的聚类,基于划分的聚类,基于密度的聚类等等。
接下来会逐步整理一些机器学习中的算法。
参考书籍:《机器学习实战》、西瓜书等