1. 绪论《机器学习·周志华》

一、引言

  1. 机器学习是什么?
    计算机科学是研究关于 “算法” 的学问;
    机器学习是研究关于 “学习算法” 的学问;

  2. 机器学习的作用?
    致力于研究如何通过计算的手段,利用经验来改善系统自身的性能;

  3. 机器学习研究内容
    计算机系统中: “经验” 通常以 “数据” 的形式存储;
    致力于,在计算机上从 “数据” 中产生 “模型” 的算法,即 “学习算法”;

进一步利用:利用这些数据产生的模型,面对新的情况时,模型会给我们提供相应的判断;

二、基本术语

  1. 记录(示例,样本):收集的单个数据,也就是,一个事件或对象的描述;

  2. 数据集:记录的集合;

  3. 属性:反映事件或对象在某方面的表现或性质的事项;如,色泽、根蒂;

  4. 特征:属性的取值;如,乌黑;

  5. 特征向量:将属性构建为多维向量,特征点坐标,对应一个特征向量;

  6. 二维表示:横坐标值代表对象或事件,纵坐标代表对应属性;

  7. 训练/学习:从数据中学习得到模型的过程;

  8. 训练数据:训练过程中使用到的数据;

  9. 训练样本:训练数据中的每一个样本;

  10. 假设:学得模型对应了关于数据的某种潜在规律;

  11. 标记:示例结果的信息;

  12. 标记空间(输出空间):所有标记的集合;

  13. 分类:学习任务的预测值为离散值,比如好瓜,坏瓜;

  14. 回归:学习任务的预测值为连续值;

  15. 二分类:分类只有两种情况,一个为正类,一个为反类;

  16. 多分类:分类有多种情况;

  17. 测试:学得模型后,对其进行预测的过程;

  18. 测试样本:被预测的样本;

  19. 聚类:将训练集中的西瓜分成若干组,每组称为一个 “簇”;

  20. 监督学习:训练数据拥有标记信息;

  21. 无监督学习:训练数据无标记信息;

  22. 泛化能力:学得模型适用于新样本的能力;

  23. 同分布:通常假设样本空间中全体样本服从一个未知 “分布”;

  24. 独立同分布:每个样本都是独立的从这个同分布上采样获得的;

三、假设空间

1. 归纳和演绎

1)归纳和演绎是科学推理的两大基本手段;

2)归纳:从特殊到一般的 “泛化” 过程;即从具体的事实归纳出一般性的规律;

3)演绎:从基础原理推演出具体状况;

2. 广义归纳和狭义归纳

1)广义归纳:从样例中学习;
2)狭义归纳:要求从训练数据中学得概念;
注意:并不能通过简单的 “记住” 来预测,这样仅能预测 “记住” 的情况,对于新情况,无法处理,所以,需要泛化;

3)假设空间
所有属性的组合,或者,删除其中一部分的组合,可以构成所有的假设空间;

由于现实情况假设空间太大,学习过程基于优先样本训练集进行,可能多个假设与训练集一致,称之为 “版本空间”;

四、归纳偏好

  1. 出现的原因
    对于同样一个样本,可能有多个 “版本空间” ,对当前训练数据,都能获得很好的效果,但是,对新的数据却会产生不同的结果。但是,具体学习算法,需要产生一个模型。所以,需要一个 “偏好” 从多个 “版本空间” 中选取出一个;

  2. 无偏好的结果
    无偏好将导致算法被多个看似 “等效” 的假设所迷惑,而无法确定学习结果;若随机选取等效假设,可能导致预测结果相悖,导致学习结果没有意义;

  3. 直观理解
    归纳偏好,可以看做学习算法自身在一个可能很庞大的假设空间中对价设计进行选择的启发式或 “价值观”。

  4. 常用偏好
    奥卡姆剃刀,是一种常用的,自然科学中最基本的原则,即 “若有多个假设与观察一致,则选最简单的那个”。

  5. NFL定理(没有免费的午餐定理)
    对于多有问题同等重要或者所有问题出现的机会相同,无论学习算法A有多聪明,B有多笨拙,它们的期望性能相同;

学习算法通常用于解决具体问题;

结论:脱离具体问题,空泛的谈论 “什么学习算法好” 毫无意义;

  1. 学习算法自身的归纳偏好与问题是否匹配,往往会起到决定性的作用;

五、发展历程

1. 人工智能的发展:
  • 1950s-1970s(推理期):人们认为只要赋予机器逻辑推理能力,机器就能具有智能;但逐渐认识到远远实现不了人工智能;
  • 1970s-1990s(知识期):人们认为要想使机器具有只能,就必须设法使机器拥有知识。出现了大量专家系统。但,逐渐认识到专家系统面临的 “知识工程瓶颈” 问题;也就是,人们由人来把知识总结出来再教给计算机相当困难;
    解决办法:让机器自己学习知识;
2. 学习的方法:
  • 1950s,出现了基于 “神经网络” 的 “连接主义” 学习技术;
  • 1960s-1970s,基于 “逻辑表示” 的 “符号主义”学习技术;
  • 1970s- ,基于 “统计” 的统计学理论;
3. 机器学习的分类:

1)1983,R. S. Michalski书籍,机器学习可划分为:“从样例中学习”、“在问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”;
2)1983,E. A. Feigenbaum 书籍,机器学习可划分为:“机械学习”、“示教学习”、“类比学习”、“归纳学习”;

  • 机械学习:也被称为 “死记硬背式学习”,将外界信息全部记录下来,在需要的时候原封不动的取出来使用(无学习,知识简单的信息检索);

  • “示教学习” 和 “类比学习” 类似于“从指令中学习” 和 “通过观察和发现学习” ;

  • “归纳学习” 相当于 “从样本中学习”,也就是,从训练样本中归纳结果;
    本书的主要内容关注于 “从样本中学习”,也就是广义归纳学习;

  • “从样例中学习”:一大主流是符号主义学习,包括决策树和基于逻辑的学习;决策树学习,可以直接模拟人类对概念进行判定的树形流程;基于逻辑的学习,以归纳逻辑程序设计为代表,是机器学习与逻辑程序设计的交叉,使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳;

  • “从样本中学习”:另一大主流技术 “基于神经网络的连接柱与学习”,缺陷:当时神经网络只能处理线性分类,甚至对 “异或” 这么简单的问题都处理不了;

  • 1983年,J. J. Hopfield 利用神经网络求解 “流动推销员问题” 这个著名的 NP 难问题取得重大进展;

  • 1986年,E. E. Rumelhart 等人重新发明了著名的 BP 算法;( “符号主义学习” 产生明确的概念;“连结主义学习” 产生 “黑箱” 模型);
    连结主义
    缺点:在知识获取的角度来看,具有明显的弱点;学习过程设计大量的参数,而参数的设置缺乏理论的指导,主要靠手工调参,参数调节上可能失之毫厘谬之千里;
    优点:BP 算法可以使连结主义在很多现实问题中,产生作用;

  • 1990s,统计学习成为主流,代表性技术为支持向量机;

  • 2000s,连结主义学习成为主流,以 “深度学习” 为代表技术;狭义的说,就是 “很多层” 的神经网络;(流行的原因:数据大了,计算能力强了)

深度学习模型拥有大量参数,若数据样本少,很容易 “过拟合”;

六、应用现状

七、机器学习的由来
1952年,阿瑟·萨缪尔,在IBM公司研制了一个西洋跳棋程序,可通过对大量棋局的分析,辨识出当前局面下的 “好棋” 和 “坏棋”。
1956年,萨缪尔在达特茅斯会议上介绍了这项工作,发明了 “机器学习” 这个词;

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356