【机器学习一】什么是机器学习

【豆子的学习】-机器学习篇一

最近开始学习机器学习,就写写东西来记录一下自己的学习路线吧。

首先什么是机器学习?

“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E”                            ——Tom M. Mitchell

Tom M. Mitchell在1997年定义机器学习,如果一个计算机程序在某类任务T上,以P衡量的性能随着经验E而完善,那么这个计算机程序从经验E学习。

机器学习的理论涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,核心的要素是数据、算法和模型,主要任务是通过算法的设计,使机器能够模仿人类的学习,从数据中获得知识经验,并利用它们来预测未知预测。

机器学习分类

机器学习主要分为以下四类:

1.监督学习:从有标记的训练数据中学习一个模型,然后根据这个模型对未知样本进行预测。

2.无监督学习:输入的样本不需要标记,自动从样本中学习特征实现预测。

3.半监督学习:监督学习和无监督学习结合的一种学习方法。

4.强化学习:通过观察来学习做成什么样的动作。每个动作都会对环境有影响,在根据观察到的环境的反馈来做出判断。

机器学习主要任务

根据机器学习的任务来分析,主要可以分为回归、分类、聚类三种任务。

1.分类:

分类算法是应用规则对记录进行目标映射,将其划分到不同的分类中去,分为两级分类和多级分类。分类使用监督学习的算法,常见的算法有:

Logistic回归和多项回归

神经网络

决策树

SVM(支持向量机)

贝叶斯分类器(例如朴素贝叶斯)

最近邻方法(例如,k-NN或k-Nearest Neighbors)

2.回归

回归分析是一种研究自变量和因变量之间关系的预测模型,用于分析当自变量发生变化时因变量的变化值,要求自变量相互独立。回归也都使用监督学习的算法,有:

线性回归

局部加权回归

岭回归

Lasso回归

CART回归树

3.聚类

聚类则是基于无监督学习的分析模型,不需要对原始数据进行标记,按照数据的特征进行聚集从而形成簇群,实现数据的分离。聚类算法可以分为基于层次的聚类,基于划分的聚类,基于密度的聚类等等。


接下来会逐步整理一些机器学习中的算法。

参考书籍:《机器学习实战》、西瓜书等

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容