机器学习主要算法类型:有监督学习和无监督学习

机器学习定义

机器学习:假设用 P(Performance) 来评估计算机程序在某任务类 T (Task) 上的性能,若一个程序通过利用经验E (Experience) 在 T 中任务上获得了性能改善,则我们就说关于 T 和 P,该程序对 E 进行了学习。这是Mitchell 于1997年给出的关于机器学习的定义。用下面一个例子来帮助理解:

      小黄设计了一个五子棋程序,让程序和自己对弈几万次,通过观察哪些布局容易赢,哪些布局容易输,一段时间后,程序自己知道了什么是好的布局,什么是不好的布局,最终程序学会了玩五子棋,还玩的挺溜。在这个例子中任务 T 是下五子棋,经验 E 是程序与自己下了几万次棋,性能度量 P 是与新对手玩五子棋时获胜的概率。

      总的来说,机器学习是致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况是,模型会给我们提供相应的判断,可以说机器学习是研究关于“学习算法”的学问。

机器学习主要算法类型:有监督学习和无监督学习

有监督学习:即给算法一个数据,同时每个数据的属性值也给出,对于数据集中的每个样本,我们想要算法预测正确并给出答案。例如回归问题,分类问题。

回归问题

   

图1 回归问题

      图1是美国波特兰市房价数据,横轴为不同房屋的平方英尺数,纵轴为不同房屋的价格,单位是千美元。此时有一套房子的面积是750平,请问该套房子出售多少千美元合适?

图2 回归问题

       如果我们根据这些数据计算出图2中的紫色线,这样估计该房子大约值150K;而如果我们根据这些数据拟合出蓝色曲线,用该曲线计算的话,该套房子的价格大约在200K左右。以上为有监督学习的例子,有监督学习是指,我们给算法一个数据集,其中包含了正确答案,在这个数据中的每个样本,我们都给出了正确答案,即房子的实际卖价。怎么才能给出一个最准确的结果就是机器学习的需要计算的。更准确来说,这就是统计上的回归问题。

分类问题

图3 分类问题

       图3是肿瘤大小和肿瘤性质的数据(肿瘤良性用0表示,恶性用1表示)

图4 分类问题

      现在假设有一个图4箭头所指的大小的肿瘤,请问肿瘤为良性还是恶性的概率为多少?这是一个分类问题,分类是指我们设法设定一个或多个离散值,学习算法那就是在数据集中画一条线,将数据根据属性分类,然后根据新投入数据所处的类别,得出其属性值,这就是分类问题。


无监督学习:数据没有标签或者是有一样标签,我们不知道数据的含义和作用,只知道是有一个数据集且数据集能自己进行分类,这也是聚类学习

聚类问题

图5 聚类问题
图6 聚类问题

        图5有一个数据集,但我们不知道这些数据集的含义和作用,通过无监督学习,可判定数据集分为两个簇(如图6示),这就是聚类算法。聚类问题在现实中的应用例如社交网络的分析,通过分析你的社交好友或者社交圈子的数据,可以自动识别互相是否同属于一个圈子?是否互相认识。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,926评论 1 10
  • 机器学习术语表 本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (...
    yalesaleng阅读 2,003评论 0 11
  • 1、回归算法 在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让...
    xxyytt阅读 516评论 0 1
  • 姓名:于川皓 学号:16140210089 转载自:https://baike.baidu.com/item/%E...
    道无涯_cc76阅读 1,718评论 0 1
  • 你是布置的工作, 下属完全没有按照你的要求做? 你做完了工作, 你的上司完全没有反应? 你也许不知道,二级反馈的领...
    锦瑟年华华阅读 355评论 0 0