【15%】100小时机器学习——什么是机器学习

前言

虽然已经好久没有更新了,但笔者最近一直都在努力学习哦。

前面三三两两根据GitHub上的项目写了一些实验操作,但是总觉得这样是不行的。碎片化的学习只能是建立在已知的基础上进行熟练,不能作为打基础的主力方法,最关键的是,GitHub的这个项目听起来非常诱人,但是并不适合自己从头开始认真学习,其内容过于零散,于是从本节开始,决定不再拾人牙慧,进入自己的系统化的学习过程。
第一讲就讲讲机器学习的概念

一、机器学习概念介绍

1.1 概览

人工智能,机器学习和深度学习之间的关系

图片引自博客园-王松伯(侵删)

早期的人工智能可以说是一个宏伟的目标,因为它的目的是赋予机器人的智慧,这种称为“强人工智能”,例如科幻电影里的终结者,能够像人类一样思考、学习、独立完成各项任务等;目前所能完成的是”弱人工智能“,主要是帮助人类完成某项特定的任务,例如搜索引擎、下围棋等。
机器学习就是实现弱人工智能的一种方式。
深度学习,属于机器学习的一个子领域,主要使用神经网络算法解决机器学习中的分类问题。人工神经网络(Artificial Neural Networks)是早期机器学习中的一个重要的算法,以我们大脑互相交叉相连的神经元为启发,人工神经网络具有离散的层、连接和数据传播的方向,深度学习的深度(deep),指的就是神经网络中众多的层数。

日常的应用

  • 搜索引擎(Google)
  • 物品识别
  • 标记垃圾邮件
  • 计算生物学(基因组研究)
  • 手写识别
  • 。。。

商业应用:

· 市场营销 (客户留存、分群、获取、产品推荐)
· 运营管理 (库存分析、供给分析、商品推荐)
· 风险欺骗 (欺诈检测、风险预警、信用评分、损失分析)
· 金融市场 (现金流预测、预算模拟、金融风控模型)
· 其他 (生命科学、健康医疗、社会科学、媒体、旅游)

1.1.1 机器学习定义

第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。Samuel的定义可以回溯到50年代,他编写了一个西洋棋程序。这程序神奇之处在于,编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。

A subset of AI in the field of computer science that often uses statistical techniques to give computers the ability to 'learn'.

近代的定义

一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
由Tom Mitchell提出,来自卡内基梅隆大学

graph TD
A[定义问题] --> B[收集数据]
B --> C[特征工程]
C --> D[建模] 
D --> E[调整模型设置] 
E --> F[评价模型]
F --> G[部署]
G --> H[模型更新]

1.1.2 机器学习与传统规则引擎的区别

规则引擎:

  • 编程解决问题
  • 人为定义决策

机器学习:

  • 从经验中学习
  • 决策规则复杂

举例说明

  • 规则引擎
    类似于手机上的单机斗地主,编程者提前拟定决策规则,并进行编程实现,这种规则引擎为固定的,无论和电脑玩多少次,电脑的打牌水平都不会有长进。
  • 机器学习
    类似于下围棋的AlphaGo,任务T就是成为下棋高手,经验E就是成千上万次的练习,性能度量值P就是能够打败人类的下棋高手。

机器学习可以做到使用历史数据,学习特征,实现预测

1.2 机器学习类型

不同的机器学习类型

Label
🌟Supervised Yes
🌟Unsupervised No
Semi-supervised Part
Reinforced No(rewarding)

Label🏷️ 标签用于标记物体的属性,可以理解成 y = ax+b 中的y
例如垃圾邮件问题,是否为垃圾就是邮件的标签;预测房价问题,所给的一个小区的房屋价格就是房屋的标签。

数据获取网站 kaggle
数据获取网站 UCI
可以从这些网站中获取数据进行练习。

1.2.1 有监督学习

解决的两类常见问题:

  • 分类问题
  • 回归问题
分类 classification 回归 regression
目标变量 离散 连续
  • 使用有标签数据训练模型
  • 为新数据打标签
  • 大部分机器学习模型为有监督学习

回归问题例子:房价预测

吴恩达机器学习案例

吴恩达机器学习课程案例

  • 模型评价指标 Normalized RMSE [值越小越好]/ Goodness of Fit( R^2 ) [值越大越好]
  • 特征重要性

分类问题例子:判断肿瘤类别

吴恩达机器学习案例
  • 模型评价指标 Performance(AUC) (一般来说 >0.85 说明非常好)
  • 特征重要性
  • 混淆矩阵 Confusion Matrix
True Positives False Positives
False Negatives True Negatives

监督学习总结

两种问题:

  • 分类问题
    把数据按类别划分,例如鉴别肿瘤是良性还是恶性,邮件是否是垃圾邮件。

  • 回归问题

1.2.2 无监督学习

无监督VS有监督

吴恩达机器学习案例

无监督学习的数据没有标签(或者有相同的标签),无监督学习的任务就是将这些数据分成不同的簇,所以称为聚类算法,谷歌新闻就是使用了无监督学习,将网络中海量的新闻自动分类,每一个类都是不同的主题。

无监督学习特点

  • 使用无标签数据训练模式
  • 发现数据固有特征
  • 可用于数据降维、异常检测
  • 聚类是最常见的无监督学习技术

无监督学习的应用

无监督学习没有收到人工输入的数据标签,对于算法的角度而言,只有一堆包含属性值的数据,通过运行一个聚类算法,就能够得到这些数据的分类结果。
例子:鸡尾酒宴会问题。
宴会的环境比较嘈杂,交谈声、音乐声和其他噪声等交织在一起,在不同的位置放置两个麦克风🎤,记录宴会的声音数据。通过无监督学习,就能完成音频输入的分离。[插入video play 6:30]

例子:Iris聚类

  • 组内离差平方和 (判别聚类算法好坏的关键指标)

无监督学习总结

  • 聚类问题
  • 异常值检测问题

1.2.3 半监督学习

特点

  • 使用少量有标签数据训练
  • 为大部分无标签数据打标签(标签预处理)
    应用目的:
    节约训练成本
    节约打标签成本

1.2.4 强化学习

学习一系列的行动(actions) ,使奖励(reward) 最大化。
例如:alpha go、自动驾驶

1.3 总结

见xmind。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容

  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,869评论 1 10
  • 概述:用“非技术背景PM”的思路,简单通俗地介绍机器学习,比较全面的介绍了PM工作中会涉及到的机器学习知识。重点讲...
    S夏薇阅读 640评论 0 2
  • 姓名:于川皓 学号:16140210089 转载自:https://baike.baidu.com/item/%E...
    道无涯_cc76阅读 1,679评论 0 1
  • 今天下午,我校组织学生举行了寒假放假仪式。 两点钟,同学们都来到了班级,各位任课老师走进教室,发试卷,作总结,对孩...
    阳春白雪888阅读 594评论 1 4
  • 感赏雨快要停了,这是我晚上一直在默念的,希望女儿放学时雨已经停了,她今天没带伞。 感赏宇宙爸爸让我心想事成(女儿放...
    Q3陈翠玲阅读 140评论 0 1