一課機器學習

说是一课机器学习,其实只讨论神经网络。神经网络首先被看作是一种「学习算法」。因此,我们有必要先对「学习」做一番探讨。


何谓「学习」?

我们先会想一下日常中人们对学习的看法。似乎听课、理解、刷习题,而且题做得越多,考得越好,就是人们对「学习」的认识。虽然简单,但这个角度抓住了可以量化的几个点:对一个特定的任务,喂给机器一些历史数据,然后给张卷子,考试的分数就是学习的成绩。这个定义好像屁都没说嘛😒 其实这里面有几个要点:

  1. 关于数据。我们只是喂数据,并没有教它怎么做卷子(应对未知数据)。如果像「我们定义了函数,再叫机器跑[1]」那样,其实已经用逻辑暗含了「教它怎么做卷子」。其中的区别很简单:如果只是给出部分数据,就能猜测全部数据的分布,那就是「学习」;而如果已经给出了全部数据(哪怕是逻辑暗含的),那顶多算作「照章办事」,算不得「会学习」。
  1. 关于假设。我们并非什么都没教机器,叫它瞎猜。我们会告诉它,怎么去猜数据的整体模样(比如线性拟合,我们假设数据是线性的,只不过掺杂了噪音而已)。

  2. 关于学习难度。学习难度大不大,取决于机器学习的数据是不是够底层。如果是一些已经提取好的「特征」,那么学习的难度就不大。而如果是一堆没加工过的数据,那么难度就很大。比如:要教机器「数照片上的人头」,如果把人头都标记好,那么就比较简单;而如果只是给了照片的像素值,那就相当难了。

  3. 最重要的一点,关于经验。如果随着经验的增长(输入的增多),预测能力得到加强,那么就是「会学习」。可以说,这是最核心的一点,也是与人们理解最为相悖的一点:谈起学习,人们总是不自然地和「知识体系」啦、「逻辑」啦……联系在一起。人类的潜意识里似乎觉得,经过训练,脑子里不新生出个什么东西来,就不叫学习。直觉是对的。后面我们会看到,虽然看起来,神经网络只是在做分类,但内部确实形成了一个新的、随经验改善的模型。同时,我们也会看到,神经网络在逻辑推理面前将会遇到巨大的困难。


神经网络「神」在哪?

一天,我和师兄讨论「深度学习和之前那些数据仓库、数据挖掘……有什么不同」。突然意识到,能不能「自动构建一个模型揭示内在结构」是核心区别。以往的数据分析方法使用的特征都是人工设计的,而神经网络可以做到自己构建一套层级的内部表征。路子找对了,这才是我们为什么能感到现在的机器真正智能起来的主要原因。

学习,最本质的不就是自我建立一套内在表征去揭示其内在结构?以学习书法为例:我们知道,书法当中「间架结构」是第一重要的。所有的练习都是在熟悉掌握字的间架结构。比如下面的「都」字,右包耳相对左边「者」字的位置、大小、倾斜角度,都会影响字的美感。

第二个「都」的包耳旁位置靠上,第三个又过大,第四个显而易见是歪的,所以都不好看。
第二个「都」的包耳旁位置靠上,第三个又过大,第四个显而易见是歪的,所以都不好看。

字的内在结构如此重要,段落的排版亦尤如此。同样,影响人的五官最重要的因素是「是否长在了正确的位置上」。意识到内在结构对于学习效率的重要,才能真正理解神经网络的价值所在。

数学上看,神经网络是一个非线性分类算法,通过把输入数据非线性映射到另一个空间中,然后再线性来一刀。

这样的思路其实不止神经网络一家,支撑向量机(SVM)也采用了同样的策略。所不同的是:神经网络采用层级的神经网络来修正边界,而支撑向量机则是一步到位。大自然老妈用的是层级结构的方案,原因嘛,主要是省「钱」。

这里插一句:为什么把数据展开到高维往往有奇效?举一例(来自shikanon),大家感受下:原本一个线性不可分的模型:x^2 + y^2 = 1

映射到一个五维空间<x, y, x^2, xy, y^2>(其实就是变换为X + Y = 1; X = x^2, Y = y^2)后发现,咦,线性可分了👻

这就是支撑向量机的做法。但这种做法技巧性太强,数学艺术上的种种优势反而成为了工程推广上的弱势[2]

而做层级结构不仅结构简单,而且可以重复利用下层的抽象单元(或者叫「表征(representations)」?「特征(features)」?)。要知道,进化的成本是很高的,不管从时间跨度、还是参与个体消耗的能量看。重复利用大为节省了「构建成本」。这篇文章介绍了人脑为什么要采用层级结构。

而坏处是:参数过多不容易调试(当然后期也找到了一系列优化的办法:反向传播、残差学习)。

神经网络做非线性映射的办法很简单:线性聚合 + 非线性变换。非线性变换从最初的「阶梯函数」转而使用「Sigmoid」是为了方便求导,而再到「ReLU」是为了减弱「梯度消失」。整个神经网络算法发展的历史,推荐大家去看王川的「深度学习有多深?学了究竟有几分?」(目前连载到二十五话了),写得相当清晰。


神经网络的基石

怎么寻得最优值——梯度下降思想指导下的反向传播算法

再写一遍有点小麻烦,大家还是将就看吧


先验知识的作用

YJango 的公开课已经讲得够透彻了,没有什么可补充的了。

简单来说,任何新型网络的构建都建立在某种对研究对象的洞见之上。意识到世间万物都是以层级的形式搭建的,这就意味着「很多单元是可以重复利用的」。这种思路造就了「卷积神经网络(CNN)」。虽然人眼识别边缘的原理和「卷积」没什么关系,只不过是受到周围的视觉神经元压制的自然结果。

同样,时间上的重复造就了「循环神经网络(RNN)」。


逻辑的位置

你可以验证一万个1 + 2 = 2 + 12 + 4 = 4 + 2 …… 这样的算式,但远远不等于你证实了交换律a + b = b + a。逻辑推理,这种处理无限的神武是怎么被人类 get✔︎ 的,至今仍是一个谜。

虽然 Domingos 在他那本《The Master Algorithm》里提出已经解决了这个问题,但以我目前的智商只能说「我读书少,你不要骗我哦」。


机器学习能干啥?

我相信,机器学习的「势」到了。势到了,实现未来的路就不止一条。比如:假如无人自动驾驶被智子锁死(这个梗大家应该懂吧😏),永远都没有可能实现 100% 的安全,研发无人驾驶还有意义吗?当然有。首先,自动驾驶这条路走不通,我们可以用 VR + 5G 实现司机和汽车的分离,一样可以达到无人驾驶的效果。其次,如果自动驾驶始终不安全,怎么都得配个安全员,这还有价值吗?会开车的老司机可能一个月值 ¥3000 ,但一个只需要踩刹车的安全员可能只需要 ¥1000 。你说有没有价值?!

同理,我们不需要每一个机器学习算法都像 AlphaGo 那样超越人类,仅仅只需要达到比人类略差的程度,就足够产生巨大的经济价值了。比如:我隔一分钟煎一个蛋🍳,煎上十个,过程录像,喂给机器。下次我煎蛋的时候,就可以通过 Google Class 那样的眼镜实时监控蛋有几分熟。至少在煎蛋这个领域,我很快就能成为专家。

我们一直错误地认为「教给别人半桶水,自己首先得有一桶水」。但,优秀的老师,更确切地说是优秀的「教练」,大部分时候只是起到一个「实时反馈」的作用。有了机器学习这位「小教练」,我们可以加速几乎所有的学习(因为初期的学习都只能是技术的训练,远远达不到艺术的层面)。那时,人人都是全能的「超人」。试想一下那个人人都是「超人」的世界,想想还是有点小激动呢😍

机器学习最初应该会在教育领域获得巨大的应用。这里的教育可以泛指任何技能的学习。其成效关键在于一套游戏化的课程体系,这也是人类可以也应该大有作为的一块。

之后,机器学习还是会回到人类创造人工智能之初的理想——探究人脑的运转机制。回顾神经网络的发展历史可以看到,每一次人们对人脑的某种洞察,都会导致学习效率的极大提升(从「Dropout」到「残差学习」无不如此)。入宝山岂能空手回?人脑的奥秘一定会被揭开。当然,这之间还有一段远超乎我们想象的距离。难度参看 WaitButWhy 的这篇《 Neuralink 和大脑的魔幻未来》

关于学习,最后的最后,想起前几天老妈对我说的「又去买这么多书!读这么多书,能挣大钱不?!」

「呃~~我去拍照也能养活自己😤」

学习不能当饭吃,也许只能带给你虚假的安全感。哈哈哈哈💃

参考资料


  1. 举个例子:我们定义「f(x) = x + 1」,给了张卷子「x = 4」,然后机器回答「5」。这并不惊奇,因为我们的定义是普适所有实数的(所以,哪怕是问它「x = 4.1」,回答「5.1」,也不惊奇)。

  2. 再举一例(来自YJango):只用直线似乎无法分割奇偶数,但把整数映射到「模2空间」(除 2 取余)后,就可以很自然地线性切分了。但运用「求模」这种高阶操作限制了它的适用范围。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容