一、什么是机器学习?
简单来说,机器学习是机器通过观察数据积累经验来获取技能(改进一些性能指标)的过程。
二、机器学习应用的条件
- 存在某种模式能够被学习--有性能表现能够增进。
- 不知道怎么描述这种模式/规则。
- 有关于该模式的数据作为输入。
三、机器学习的应用-推荐
1. 描述
- 数据:很多用户已经评价了许多电影
- 技能:预测一个用户如何评价他没有评价过的电影
2. 一个可能的ML方案

图2.2 分析过程
- 模式
将viewer描述成一串特征数字,图中用圆圈表示喜爱程度,圆圈越大表示越喜欢。例如某viewer喜欢动作片,该用户的这个特征数字就大。
将movie也描述为一串特征数字,图中表示有这个特征圆圈就大,没有的话圆圈就很小。
通过关联两串特征数字就可以知道知道viewer对movie的评分。例如将两串特征数字作内积,将得到的结果表示为预测的分数。 - 学习
机器根据已经知道的评分情况,反推出viewer和movie的特征,从而可以利用上述模式进行评分预测。
四、机器学习的组成-信贷预测
1. 描述

表4.1 信贷用户信息
未知的模式:机器根据用户信息表发放信贷使银行获益。
2. 基本符号(notations)
- 输入:x∈X(用户信息表)
- 输出:y∈Y(发放信贷卡后是好是坏)
- 未知的目标函数:f:X→Y(理想的发放规则)
- 训练数据:D={(x1,y1),(x2,y2),...,(xn,yn)}(银行的历史记录)
-
希望的表现良好的函数:g:X→Y(用来使用的已学到的规则)<希望能够得到一个与理想规则f很接近的g规则>
符号流程
图4.2-1 具体流程 -
假说集合H:假设 g∈H={hi},例如有这些规则:
h1:年薪>80w
h2:工作年龄<2
然后由算法A从H中选择“最好”的一个作为g。
图4.2-2 学习模型
五、机器学习与其他领域
机器学习:使用数据D计算出一个非常接近理想目标函数f的假设g
1. 机器学习ML与数据挖掘DM
数据挖掘:使用(大量的)数据去发现一些有趣的信息
- 如果“有趣的信息”与“假设g”相同,那么ML=DM
- 如果“有趣的信息”与“假设g”有关联,那么DM与ML能够互相帮忙,达到目的。
- 传统的DM也关注从数据库中进行高效的计算。
2. 机器学习ML与人工智能AI
人工智能:计算得出具有智能表现的某些东西
- 由于g很接近有智能表现的f,可以说ML是实现AI的一种方式。
3. 机器学习ML与统计Statistics
统计:使用数据来得出一个未知的事情的推论
- g是一种输出的推论;f是一种未知的事物。从这种角度可以说统计是实现ML的一种方式。
- 传统的统计方法侧重于数学假设下的可处理结果,而不太关心计算。而ML更侧重于如何计算。


