机器学习基础概念(一)

数据

机器学习就是为给算法数据,让算法在数据寻找一种关系


花的数据集.png
  • 数据的整体叫做数据集(data set)
  • 每一行数据称为样本(sample)
  • 除最后一列,每一列表达样本的一个特征(feature)
    特征我们通常用X表示
    第i个样本行写作 X(i)
    地i个样本第j个特征值X(i)j
  • 最后一列,称为标记(label)
    通常用y(小写)表示
    第i个样本的标记y(i)
萼片长度 萼片宽度 花瓣长度 花瓣宽度
5.1 3.5 1.4 0.2
7.0 3.2 4.7 1.4
6.3 3.3 6 2.5

第一行,为特征下面的为特征向量


1.png

下方是一个特征空间。


数据表.PNG

仔细观察发现数据可以分为两类,如图
数据切分.PNG

我们可以看到数据中可以有一条明确的直线将数据分为两类(下方暂称为第一类,上方为第二类),这就是我们区分某一类事物的方法,当某类事物的特征趋向于直线的下方,我们把他当作第一类,上方则为第二类。
  • 分类任务的本质就是特征空间切分

  • 在高维空间同理

特征可以很抽象


手写图像.PNG
  • 图像,每一个像素点都是特征
  • 28*28的图像有28*28=784个特征
  • 如果是彩色图像特征更多
  • 特征可以非常抽象,甚至没有语义

【引申】深度学习就是用算法自动的进行特征工程

机器学习的主要任务

一、分类任务

将给定的数据进行分类

  • 二分类任务
    • 给予的图片是猫还是狗
    • 判断邮件是垃圾邮件;不是垃圾邮件
    • 银行判断发个客户信用卡有风险;没有风险
    • 肿瘤是恶性还是良性
  • 多分类任务
    • 手写字体的识别
    • 图像识别(不在是两类事物。多事物识别)
    • 判断发放给客户的信用卡的风险评级
    • 很多复杂的问题也可以转化成分类问题

一些算法只支持完成二分类任务
但多分类的任务可以转换成二分类任务
有一些算法天然的可以完成多分类任务

  • 多标签任务
    假设有一张图片有两个人,多标签分类任务可以区分两个人,把第一个人作为A第二个作为B。甚至把图片中的其他事物进行区分

二、回归任务

  • 结果是一个连续的值,而非一个类别
    • 房屋价格
    • 市场分析
    • 学生成绩
    • 股票价格

有一些算法只能解决回归问题,
有一些算法只能解决分类问题,
有一些算法的思路既能解决回归问题,又能解决分类问题。

有一些情况下,回归任务可以简化成分类任务

什么是机器学习.PNG

综上,大量学习资料被叫做数据集data set,算法根据资料建立模型,输入样例从而输出结果。
我们可以把模型看作f(x),x是样例,输出结果

回归问题和分类问题都是监督学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容