一、绪论

1. 什么是机器学习

  • 人类依靠经验对新情况做出有效的决策

  • 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,"经验" 通常以 "数据" 形式存在,因此 机器学习所研究的主要内容是关于在计算机上从数据中产生 "模型" 的算法,即 "学习算法"。如果说计算机科学是研究关于算法的 "学问" ,那么可以说机器学习时研究关于 "学习算法" 的学问。

  • Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

  • Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

    • 对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善,那么我们称这个计算机程序在从经验 E 学习。

2. 基本术语

  • 数据集:一组数据的集合
  • 示例 | 样本:每条记录是关于一个事件或对象的描述
  • 属性 | 特征:反映事件或对象在某方面的表现或性质的事项
  • 属性值:属性上的取值
  • 属性空间 | 样本空间 | 输入空间:属性张成的空间
  • 特征向量:空间中的每个点对应一个坐标向量,我们把一个示例称为一个特征向量
  • 学习 | 训练:从数据中学得模型的过程
  • 训练数据:训练过程中使用的数据
  • 训练样本:训练数据中的每个样本称为一个训练样本
  • 训练集:训练样本组成的集合
  • 分类:欲预测的是离散值的学习任务
  • 回归:欲预测的是连续值的学习任务
  • 测试:学得模型后,使用其进行预测的过程
  • 测试样本:被预测的样本
  • 泛化能力:学得的模型适用于新样本的能力

3. 假设空间

  • 归纳:从特殊到一般的 "泛化" 过程,即从具体的事实归结出一般性规律
  • 演绎:从一般到特殊的 "特化" 过程,即从基础原理推演出具体状况
  • 我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集 "匹配" 的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
  • 现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的 "假设集合" ,我们称之为 "样本空间" 。

4. 归纳偏好

  • 通过学习得到的模型对应了假设空间中的一个假设
  • 但版本空间带来了一个麻烦:当多个与训练集一致的假设,但与他们对于的模型在面临新的样本的时候,却会产生不同的输出
  • 但对于一个具体的学习算法,它必须产生一个模型,这时算法本身的 "偏好" 就会起到关键的作用
  • 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
  • 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 "等效" 的假设所迷惑,而无法产生确定的学习结果。
  • 归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或 "价值观"
  • 奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的那个。它是一种常见的、自然科学研究中最基本的原则
  • 奥卡姆剃刀并非唯一可行的原则,需要注意,奥卡姆剃刀本身存在不同的解释。
  • "没有免费的午餐" 定理:无论 学习算法a 多聪明,学习算法b 多笨,他们的期望性能竟相同。
    • 对于所有机器学习问题,任何一种算法(包括瞎猜)的期望效果都是一样的。
    • 没有一种机器学习算法是适用于所有情况的
    • 这个定理有个前提:“对于所有机器学习问题,且所有问题同等重要”。而我们实际情况不是这样,我们在实际中往往更关心的是一个特定的机器学习问题,对于特定的问题,特定的机器学习算法效果自然比瞎猜更好
    • 这个定理其实揭示了一个哲学思想,“有得必有失”,某一个机器学习算法在某个领域好用,在另外一个领域就有可能不好用,瞎猜在一些情况下不好用,但在某个特定的问题上会很好用

5. 发展历史

1) 推理期

  • 二十世纪五十年代到七十年代初
  • 那时人们以为只要能赋予机器逻辑推理能力,机器就能具有智能
  • 随着研究向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的
    • 基于神经网络的 "的连接主义" 学习
    • 基于逻辑表示的 "符号主义" 学习
    • 以决策理论为基础的学习技术以及强化学习技术

2)知识期

  • 二十世纪七十年代中期开始
  • 这一时期大量专家系统问世
  • 但是人们逐渐认识到,专家系统面临 "知识工程瓶颈" ,简单来说,就是由人来把知识总结出来再教给计算机是相当困难的

3)二十世纪八十年代

  • 机器学习的划分1:
    • 从样例中学习
    • 在问题求解和规划中学习
    • 通过观察和发现学习
    • 从指令中学习
  • 机器学习的划分2:
    • 机械学习:也称为 "死记硬背式学习" ,即把外界输入的信息全部记录下来,在需要时原封不动地取出来使用,这实际没有进行真正的学习,仅是在进行信息存储与检索
    • 示教学习:类似于 从指令中学习
    • 类比学习:类似于 通过观察和发现学习
    • 归纳学习:相当于 从样例中学习,即从训练样例中归纳出学习结果
  • "从样例中学习" 的一大主流是符号主义学习:
    • 代表包括 "决策树" 和 基于逻辑的学习
    • 决策树:以信息论为基础,以信息熵的最小化为目标,直接模拟人类对概念进行判定的树形流程。决策树简单易用。
    • 归纳逻辑程序设计:基于逻辑的学习,可看做是机器学习和逻辑程序设计的交叉。其具有很强的知识表达能力,可以较容易地表达出复杂数据关系。但由于表示能力太强,直接导致学习过程面临的假设空间太大,复杂度极高,因此问题规模稍大就难以有效进行学习。

4)二十世纪九十年代

  • "从样例中学习" 的另一主流技术是基于神经网络的连接主义学习
  • 与符号主义学习能产生明确的概念表示不同,连接主义学习技术产生的是 "黑箱" 模型,因此从知识获取的角度来看,连接主义学习技术有明显弱点。连接主义最大的局限性在其 "试错性" ,简单来说,其学习的过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工 "调参" ,参数调节失之毫厘,谬以千里
  • 统计学习:以统计学习理论为基础

5) 二十一世纪初

  • 连接主义卷土重来,掀起了以 "深度学习" 为名的热潮
  • 深度学习:狭义地说就是 很多层的 神经网络
  • 以往机器学习技术在应用中取得好性能,对使用者要求较高,而深度学习技术涉及的模型复杂度非常高,以至于只有下功夫 "调参" ,把参数调好,性能往往就好
  • 因此深度学习虽缺乏严格的理论基础,但它显示降低 了机器学习应用者的门槛,为机器学习技术走向工程实践带来便利
  • 深度学习火热的原因:
    • 数据大了、计算能力强了。深度学习模型拥有大量的参数,若数据样本少,则很容易"过拟合"
    • 如此复杂的模型,如此大的数据样本,若缺乏强力计算设备,根本无法求解,恰由于人类进入了"大数据时代",数据储量与计算设备都有了大发展,才使得连接主义学习技术焕发又一春。

6. 应用现状

  • 随着人类收集、存储、传输、处理数据的能力取得了飞速提示,人类社会的各个角落都积累了大量数据,需要有效地对数据进行分析,利用计算机的算法,而机器学习恰顺应了时代这个迫切的需求
  • 无论是多媒体、图形学、网络通信、软件工程、乃至体系结构、芯片设计,都能找到机器学习的身影,尤其在计算机视觉、自然语言处理等。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容