《我们如何学习》1:学习的机器。2:规则和假设

《我们如何学习》1:学习的机器

大脑跟AI的学习原理有以下相同点:

1.模型:都是训练模型,通过和真实世界互动,用数据的反馈来调整那些参数

2.分层:分层的神经网络就叫“深度学习”网络

3.监督学习:随时提供有效的反馈,是学习的关键

4.任意的震动:故意给学习加入一些随机的变化

5.无监督学习:自己给自己提供反馈

6.抓住本质:善于忽略,才能抓住本质

7.内在知识:把新知识看做旧知识的组合

《我们如何学习:大脑为何(暂时)比机器学得快》(How We Learn: Why Brains Learn Better Than Any Machine… for Now),作者是一位法国的心理学和认知科学家,斯坦尼斯拉斯·迪昂 (Stanislas Dehaene) 。

为什么花这么多功夫琢磨如何学习呢?

一本面向青少年的、讲学习方法的书,就叫《学习如何学习》,可是:我要是知道如何学习,何必再读一本教我如何学习的书?我要是不知道如何学习,又怎么能*学习*如何学习呢?

每个人都有天生的学习能力,所以都能学习 —— 但是学习了如何学习,能让我们更聪明、更高效地学习……了解学习方法还有一个原因:我们对大脑非常好奇。大脑是如何学习的,这件事儿本身就很有意思。

迪昂这本新书的特色恰恰是学习的底层原理。他结合了脑神经科学、认知心理学和计算机科学,告诉我们有关学习的最新研究进展。他提出了四个学习原则,这些原则我们早就知道了 —— 但是了解了底层原理,你就会更加坚定、也会更灵活地运用这些原则。

希望每个人都成为学习专家。要理解学习,你必须了解大脑。


大脑是一台神奇的学习机器。一个词叫“大脑的可塑性”(Brain Plasticity,也叫 Neuroplasticity),大脑非常……皮实。一个孩子三岁的时候头部中弹,导致全身瘫痪并且彻底失明,但他的语言天赋却完全不受影响,七岁就会好几种语言,还出版了自己的小说,还自己画了插图!他根本没见过“山”是什么样子,但是他能想象出来。

这是什么样的学习能力。迪昂列举了很多这样的案例。一个从十一岁起双目失明的孩子长大后成了著名数学家,而且研究的是代数几何:你不用眼睛看能做几何题吗?一个被切除了大脑的整个左半球的孩子可以创作出非常厉害的绘画。一群从小被扔进孤儿院与世隔绝的孩子,长大之后也和正常人一样……你说作为家长还有什么可担心的。

可是在另一方面,有时候大脑因为一个小小的损伤,就会失去重要的学习功能。有好几个人在创伤后发现自己不会阅读了,对眼前的文字怎么看都不认识,然后不管多么努力地训练,阅读速度都比不上一个幼儿园小孩。

这本书的主题就是怎么才能把大脑用好。好消息是我们的大脑都差不多,基本原理是一样的,书中的知识适用于每一个人。咱们先强调一个最关键的原理:有些知识是天生的。


这个道理叫做“先备学习(prepared learning)”。科学家的最新认识是大脑不是白板,小孩刚出生,就已经预装了很多知识。对光线和声音怎么反应,关注语言,害怕危险的东西,这些事儿不用专门学,都已经写在基因里了,天生就会。

但是不能什么知识都预装。首先装不下,人的 DNA 全部的信息、包括把各种冗余都算上,只有750M,相当于一张老式 CD 的大小,真存不了太多东西。更重要的是,把大部分知识留到出生以后学习是更好的策略,因为你不可能事先完全知道到时候能用上哪些知识。

连最简单的线虫都有学习能力:它能适应环境变化,它能记住各种线索去找到营养丰富的地方,并且在路上避开有它不喜欢的气味的地点。

人就更擅长学习了。相对于需要学习的知识而言,我们大脑的“容量”几乎是无限的。我们有最大的学习潜能,学习对我们的影响也最大,不同的人因为学习而产生的差距也最大。能在青少年时期用十几年的时间专门受教育,这是现代人的特权。这种系统性的教育让你的短期记忆力比从来没有受过教育的人高出一倍。你每多受一年教育,平均智商就能提高几分。学习不但是你不断适应新环境的关键手段,而且能把你变成不一样的人。

但不管怎么学,都别忘了我们也是一种生物。先天预装知识和后天学习相配合这个机制,对我们非常重要。

上世纪八十年代,计算机科学家有感于传统算法做人工智能不行,转向人脑学习,这才搞出了神经网络算法。现在神经网络有个更时髦的名称叫“机器学习”,是一切 AI 基础。计算机科学家在这个基础上发明了各种策略和方法,其中也是不断地在借鉴人脑,他们非常关注脑科学的进展。可以说 AI 是对大脑的仿生学。

但是教学相长,脑科学家也非常关心 AI 算法的进展,也从 AI 中悟出来了很多道理。有时候计算机科学家独立发明一个能提高机器学习效率的新方法,结果脑科学家一看好像人脑也是这样的……这就是反向仿生学。

这个道理是大脑也是一个神经网络。有时候你和一个跟自己相似的东西对照,更能看清自己是怎么回事儿。

1.模型

所谓学习,本质上就是训练我们大脑内部的模型。

模型是真实世界在你头脑里的一个缩影。这个缩影不可能完全再现真实世界,但它应该包含真实世界最关键的特征,它能用于解释、甚至预测真实世界。大脑和 AI 都是神经元的网络,所以模型无非都是神经元的连接结构和连接强度,可以用一系列参数表示。学习就是训练模型,就是通过和真实世界互动,用数据的反馈来调整那些参数。

2.分层

神经网络模型是分层的。比如学语言,不管是小孩学说话还是 AI 学语音识别,最底层都是识别音节,是简单的声音。往上一层是字词,再往上是语法,帮你连成句子,再往上一层是意思……每一层有每一层的规律。在机器学习领域,分层是一个重大进步,分层的神经网络就叫“深度学习”网络。

3.监督学习

怎么训练模型的参数呢?最简单的方法就是随时提供有效的反馈。

比如你练习射击。你打了一枪,一看靶子,发现你瞄得太往上了,子弹偏离了靶心 5 厘米。这就是两个关键的反馈信息,一个是偏离的程度,一个是偏离的方向。那么下一枪你就根据这两个信息调整,稍微往下瞄一点。如果第二枪的结果是向下偏离靶心 2 厘米,那你就以更小的幅度再往上调整一点。

在机器学习领域,这叫做“有监督式学习(Supervised Learning)”。神经网络每做一个动作都会收到这么好的反馈:既知道差了多少也知道差的方向是什么,然后下一步就明确知道该怎么对参数进行微调。当然学习射击比较容易因为只有几个参数,复杂的学习需要调整的参数就太多了,要有极多的训练数据,但是原理是一样的。

反馈,是学习的关键。

4.“任意的震动”

机器学习中,有时候你通过一系列反馈很快就找到了一个最优解,但是你不能确定它是不是全局的最优解。你只搜索了一个局部,也许别处还有更好的东西你没发现。计算机科学家的办法是故意给学习加入一些随机的变化,就好像生物演化中的基因突变一样,也许就能收获惊喜。

大脑学习也应该这样。你得博览群书开卷有益积极探索,时不时跳跃到别的地方看看。“任意的震动” ,混乱能带来惊喜。

5.无监督学习

有老师手把手地教,每一步都给反馈当然好,那要是没有老师怎么办呢?也许更好。当初 DeepMind 公司出的 AlphaGo 和 AlphaZero,都不是跟围棋教练学的下棋,它们使用的是“无监督学习(unsupervised learning)”算法。

无监督学习只有一个外部反馈,那就是最终这盘棋你是赢了还是输了。中间哪一步你走的对不对,没有人告诉你。

那这棋怎么学呢?你必须自己给自己提供反馈。无监督学习算法会分出两个角色来,一个是批评者(critic),一个是行动者(actor)。批评者的任务是根据以往的对局经验,随时评估当前局面的胜率大小。比如你的地盘很大,它就能感觉到你取胜的概率大。行动者则是根据批评者的评估意见试探下一步走法:如果批评者说走这里胜率会降低,行动者就换个地方……

大脑有时候也是这样学习的。小孩学走路,大人并没有告诉他每一步腿迈的对不对 —— 他自己摔倒过几次就有经验了,知道走成什么姿势容易摔倒,然后就会避免走那个姿势。

6.抓住本质

机器学习的模型是不是参数越多越好呢?不是。参数太多会让你陷入“过度拟合” :就好像上数学课,你学解题学的是套路的一般性,而不是那些例题里特殊的细节。你既要善于学习,也要善于忽略,才能抓住本质。

7.内在知识

机器学习的“卷积算法”,一下子就把计算机图形识别的能力提高到了实用水平。卷积算法的关键是它并不是在一无所知的状态下看图:它已经对所有的图形都有一定的了解,能够识别一些最基本的图案,比如线条、圆圈、斑点等等。新的图形在它眼中都是已知图案的组合。它善于运用自己的“内在知识”。

大脑的学习也是如此。你从来都不是“从零开始”学什么东西,你总是把新知识看做旧知识的组合。我们出生之前,基因就已经告诉我们如何识别声音和光线,所以接下来的语音和人脸识别都是在更高的层面上进行的,所以才学的那么快那么自然。

***

通过审视机器,我们也能审视自己的学习。你的基础知识学扎实了吗?你是把失败当做反馈还是把反馈都当做失败呢?你做事的时候内心有个“批评者”吗?你的批评者会影响你的情绪吗?你喜欢新东西吗?

……这么一对比,大多数人的学习态度远远不如机器。






《我们如何学习》2:规则和假设

1.人脑的学习过程是下面这三步 ——

第一,使用思想语言创造各种假设的规则;

第二,在实践中验证这些假设,找到最可能的规则;

第三,用这个规则去学习。

2.为什么人脑学习得那么快?因为每个人一出生,其实已经掌握了所有的知识。

3.所以学习的本质不是做加法,而是做减法。世界上并没有什么新东西,你已经都会了,你要做的只是验证。

人工智能到底哪点不如人,你已经看过太多的利弊分析了。尼斯拉斯·迪昂从“学习”这个角度说,机器学习对人脑的仿生仅限于表层。

是,AI 图像识别现在很强。但图像识别是人脑的一个非常肤浅的功能。看见一张图片,你找到其中的物体,把它们分类,这一切只要几十分之一秒,而且是无意识的。AI 能下围棋,但本质也是靠模式识别,它无非计算速度更快、能记住的局面更多而已。模式识别能让 AI 看起来很像是专家,但是它不是真的专家。凡是我们有意识的思维,比如逻辑推理和抽象概括这种*慢*的思维方式,AI 统统不行。

举个例子。现在有些 AI 对话程序号称已经接近通过图灵测试。比如它可以扮演一个心理医生跟你聊天。你说我最近心情不好,它会问你是不是压力太大了?你说是的,它就会接着问你是工作原因还是感情原因?听起来很像真人……这种对话也能让你感到安慰,其实都停留在表面。我有个让对话深入进行的主意,你应该给它出道题:

咱们用符号 @ 代表一种四则运算,已知 1@2=3,2@9=11,那你能不能猜一猜,100@1 等于几?

任何一个成年人都能猜到 @ 代表加号,所以 100@1=101。但是这对 AI 来说可是太难了:它涉及到猜测一个规则然后应用一个规则。我不相信现在有哪个 AI 聊天程序有这个水平。

所谓“深度学习”,恰恰是浅度学习。

1.人脑的学习优势

迪昂列举了人脑相对于机器学习的六个优势,都属于我们平时自己觉得挺简单,而对 AI 特别难的操作。

第一是抽象概念。字母 A 是什么样的?下面所有这些字体表现的 A ,你都能轻松认出来 ——

笔画粗点细点、是直线还是曲线、扭曲一下或者增加点修饰,不管怎么变,你都知道它是 A:因为你抓住了 A 的本质。再比如说椅子,不管是三条腿还是四条腿,什么颜色什么材质,你都知道它是椅子,因为你抓住了椅子内在抽象的概念,你理解椅子的精髓。

AI 没有这个能力。现在欺骗 AI 已经是一个热门活动,在香蕉旁边放一个小小的干扰,AI就把它识别成了……烤面包机。

第二个优势是人的学习速度非常快,而训练 AI 需要海量数据。AlphaZero 确实厉害,什么游戏它学到最后都能比人打得好 —— 但是请注意,它初期的学习速度可是比人慢得多。AI 全靠自己瞎摸索。而人,你只要给他讲讲大概的规则,他一上来就能打的很有章法。

再比如学语言,一个法国孩子每年大概听父母跟他讲 500-1000 个小时的话,这点训练就足够让他几年之内熟练掌握法语。而如果是 AI,要粗略地掌握一门人类语言,它需要多几十倍的训练量才行。

第三个优势是人很容易传递知识。你买个烤面包机,自己看说明书学会了怎么用,然后给你妈妈也买了一个。她收到之后你给她打电话,三言两语就能教会她怎么用。AI 没这个能力。机器学习的所有知识都体现在神经网络里的那些参数上,参数本身没有意义,AI 说白了就是一个黑箱。

第四是人有时候用一个例子就能学会。比如我教你一个新词,purget,意思是“忘记”,比如“我purget吃饭”就是“我忘了吃饭”。这就可以了!你马上就能用这个词造各种句子……而 AI,没有这种把新东西加入旧知识的能力。

人脑的第五个优势是最关键的,那就是人拥有一个“思想语言(language of thought)”。这是一种内在的逻辑语言,能让我们进行推理。

迪昂喜欢的例子是这样的。我们知道对任何一个数字,你总可以把它加1,变成下一个数字 —— 那么根据这一点,你就可以推导出来,世界上并没有一个“最大的数字”:不管哪个数字+1之后都有一个更大的数字 —— 你就有了“无穷大”的概念。可能本来你不知道什么叫无穷大,但是自己这么一推导,你就知道了。

思想语言让我们能用有限的词汇去组合出无穷多的新概念。这是只有人才有的能力,其他所有动物都不具备,AI 更不会。

第六个优势是我们能够把几个技能组合起来去做一件全新的事情。我学会了加法和英语,下一步我就能检查英文账单。人脑会把技能迁移到新的场景。对比之下,AlphaGo 下围棋只会标准的 19×19棋盘,你要是临场建议咱们下 15×15 的吧,它不会下。

*

人脑为什么这么厉害呢?你看这是不是也属于“百姓日用而不知”的智慧。

妈妈领着女儿在公园里玩,看到花丛中有一只蝴蝶,妈妈说“看,蝴蝶”。就这一句话,女儿就记住了。下次再看见蝴蝶,她就知道这是蝴蝶。请问她是怎么学会的呢?

从 AI 的视角考虑,这可太难了。当你说蝴蝶的时候,眼前有各种各样的东西:有花、有树叶、有泥土、有空气、有天空,孩子是如何知道哪个是蝴蝶的呢?而且“蝴蝶”为什么一定是个物体?它也有可能是一种颜色、一个动作或者一种性质:也许妈妈的意思是说这个花盆有旋转对称性!孩子怎么就学会了“蝴蝶”呢?

还有一些更抽象的词,比如“思考”“自由”“相信”,孩子是怎么学会的呢?AI 做图形识别可以,可你怎么训练才能让 AI 识别“自由”?还有,“我”这个字是什么意思,孩子是怎么知道“我”指的是说话者本人、而不是某个特定的人的呢?

你得是一个认知科学家,拿孩子做过各种实验,才能略知一二。

迪昂认为,人脑学习的优势,关键在于两个能力。一个是规则,一个是假设。

2.规则

稍微用一点规则,学习就能大大加快。你别看很多家长和老师抱怨孩子不遵守规则,让他们按流程做个数学题都很难,其实每个孩子都在暗中掌握和运用规则。迪昂列举了孩子的几个学习规则。

第一个规则是尽量选择最简单、最小的假设。妈妈指着小狗跟孩子说,“dog”。站在孩子的视角,这个词可能有两种含义。是所有的狗都叫dog,还是这只小狗的名字叫dog?你跟小孩说第一遍的时候,他并不知道,但是他会默默记住这两个假设。

换一个不同的场合,你指着另外一只狗,跟小孩说 dog,小孩马上就明白了 dog 指的是所有的狗 —— 他没有再猜测别的可能性,比如说 dog 是不是特指公狗或者比较小的狗?他先采纳最简单的假设再说。

第二个规则是注意力。当一个人谈论什么东西的时候,他的注意力一定是在这个东西上。妈妈说蝴蝶的时候,要么她会用手指着蝴蝶,要么就看着蝴蝶 —— 所以孩子知道“蝴蝶”是在说什么。

科学家怎么知道孩子会使用这个规则呢?实验室里,给孩子手里拿一个他从来没玩过的玩具,比如一个潜水艇模型。老师对孩子说“潜水艇!”孩子就知道那个新玩具叫潜水艇。但如果不是老师冲着这个孩子说,而是头顶上的广播里说了“潜水艇”,孩子就不会意识到那个玩具叫潜水艇,也就学不会这个词。

第三个规则是在“这个”、“那个”、“the”这些冠词之后跟着的,总是名词。连 12 个月大的婴儿都能运用这个规律。你每次说 the,他就知道后面跟着的一定是个东西,而不是一个动作。

第四个规则是通常情况下,两个不同的词不会指代同一个东西。地上有很多玩具,其中只有一个新玩具是孩子没见过的。你对孩子说“把那个 kekeke 拿给我!”他没听过“kekeke”这个词(其实是你编造的一个词),但是他会把那个新玩具拿给你,因为他知道其他玩具的名称都不是“kekeke”。

有些聪明的狗能听懂几百个单词,这个拿玩具的测试,连狗都能通过……而 AI 还做不到。

*

那人脑是怎么知道这些规则的呢?有些肯定是天生的,婴儿一出生就已经知道一些“关于规则的规则”,也就是“元规则(meta-rules)”,甚至一些“元规则的元规则”。但更多的情况,是我们自己在大脑里先创造规则,再去验证规则。这就涉及到大脑的第二个关键能力,也就是假设和检验。

3.假设

提出假设然后验证假设,这是科学家的工作方法,也是我们常说的“贝叶斯方法” 。

贝叶斯方法讲究“观点随着事实发生改变”,那这个观点是从哪来的呢?是你自己假设出来的。面对一件事情,大脑会假设几个规则,然后通过观察去验证哪个规则成立的可能性更大。

比如你在聚会上遇到一个人叫小王,你发现他不怎么说话。小王是什么情况?你提出了几个假设:他性格比较内向,他是个哑巴,或者他不会说中国话。然后你观察他,你跟他说了一句话他好像听懂了,那就应该弱化“他不会中文”这个假设。

一位发展心理学家叫艾莉森·高普尼克(Alison Gopnik),她经常鼓吹婴儿都是科学家,是贝叶斯方法专家。孩子们猜测规则,验证规则,就掌握了规则。

人脑的学习过程是下面这三步 ——

第一,使用思想语言创造各种假设的规则;

第二,在实践中验证这些假设,找到最可能的规则;

第三,用这个规则去学习。

这就是为什么人脑学习得那么快。你要认同他这个理论,那人脑可就太厉害了。迪昂据此有一个惊人的推断 ——

每个人一出生,其实已经掌握了所有的知识。

为什么这么说呢?因为你可以用思想语言自行推导所有的假设,你可以做各种各样的猜测,剩下的只不过是调整那些猜测的可信概率而已。

这就如同把头脑健全的你穿越到一个外星球,那里的办事规则和地球完全不同,但是你知道一点:那里的人办事也是有规律的 —— 没规律我们就谈不上学习了。而就凭这一点,你就等于知道了那个世界的全部。你可以假设各种各样的规则,再一个个去验证,把可能性低的假设排除掉。

所以学习的本质不是做加法,而是做减法。世界上并没有什么新东西,你已经都会了,你要做的只是验证……

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容