机器学习基础概念

一、什么是机器学习?

简单来说,机器学习是机器通过观察数据积累经验来获取技能(改进一些性能指标)的过程。

二、机器学习应用的条件
  1. 存在某种模式能够被学习--有性能表现能够增进。
  2. 不知道怎么描述这种模式/规则。
  3. 有关于该模式的数据作为输入。
三、机器学习的应用-推荐
1. 描述
  • 数据:很多用户已经评价了许多电影
  • 技能:预测一个用户如何评价他没有评价过的电影
2. 一个可能的ML方案
图2.2 分析过程
  • 模式
    将viewer描述成一串特征数字,图中用圆圈表示喜爱程度,圆圈越大表示越喜欢。例如某viewer喜欢动作片,该用户的这个特征数字就大。
    将movie也描述为一串特征数字,图中表示有这个特征圆圈就大,没有的话圆圈就很小。
    通过关联两串特征数字就可以知道知道viewer对movie的评分。例如将两串特征数字作内积,将得到的结果表示为预测的分数。
  • 学习
    机器根据已经知道的评分情况,反推出viewer和movie的特征,从而可以利用上述模式进行评分预测。
四、机器学习的组成-信贷预测
1. 描述
表4.1 信贷用户信息

未知的模式:机器根据用户信息表发放信贷使银行获益。

2. 基本符号(notations)
  • 输入:x∈X(用户信息表)
  • 输出:y∈Y(发放信贷卡后是好是坏)
  • 未知的目标函数:f:X→Y(理想的发放规则)
  • 训练数据:D={(x1,y1),(x2,y2),...,(xn,yn)}(银行的历史记录)
  • 希望的表现良好的函数:g:X→Y(用来使用的已学到的规则)<希望能够得到一个与理想规则f很接近的g规则>


    符号流程

    图4.2-1 具体流程
  • 假说集合H:假设 g∈H={hi},例如有这些规则:
    h1:年薪>80w
    h2:工作年龄<2
    然后由算法A从H中选择“最好”的一个作为g。


    图4.2-2 学习模型
五、机器学习与其他领域

机器学习:使用数据D计算出一个非常接近理想目标函数f的假设g

1. 机器学习ML与数据挖掘DM

数据挖掘:使用(大量的)数据去发现一些有趣的信息

  • 如果“有趣的信息”与“假设g”相同,那么ML=DM
  • 如果“有趣的信息”与“假设g”有关联,那么DM与ML能够互相帮忙,达到目的。
  • 传统的DM也关注从数据库中进行高效的计算。
2. 机器学习ML与人工智能AI

人工智能:计算得出具有智能表现的某些东西

  • 由于g很接近有智能表现的f,可以说ML是实现AI的一种方式。
3. 机器学习ML与统计Statistics

统计:使用数据来得出一个未知的事情的推论

  • g是一种输出的推论;f是一种未知的事物。从这种角度可以说统计是实现ML的一种方式。
  • 传统的统计方法侧重于数学假设下的可处理结果,而不太关心计算。而ML更侧重于如何计算。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容