初识人工智能,浅谈机器学习、深度学习以及机器博弈

一、什么是人工智能

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

简单来说就是让机器能够模拟人类的思维能力,让它能够像人一样去感知思考,甚至决策,要知道,我们看见的世界和机器所见的世界很不一样,我们看见一个人,知道那是一个人,看见一辆车,知道那是一辆车,但机器看到的,却只是一串毫无意义的数字

机器代入人类的视角,去学习人类的语言,进而总结经验,做出判断

通常都是我们去学习机器语言,如C语言、Java语言,写进机器里,变成各种电信号,指挥机器去做事,但现在我们希望它们能够不依赖这种指挥,就能根据人的目的,自动察觉应该干什么。

二、机器学习

人通过经验,归纳出规律。机器学习通过数据,训练出模型。

机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论


数据通过算法构建出模型对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法重新建立模型,再次进行评估,如此循环往复,最终获得满意的模型来处理其他的数据。

(1) 监督学习

输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。

就像人类小时学习一样,老师一个字母一个字母教汉语拼音。反复指着一个字母,教你认,教你读,纠正你的发音,纠正你的书写直到过关。这个过程被称为监督学习
对于机器大脑来说,就是引导它从数据中寻找规律,也就是给它看题目,并告诉它答案,当它看的足够多就会自己做题了,这种方法经常被用于各种识别任务,如人脸识别、车牌识别等。

image.png

(2)无监督学习

输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。

无监督学习在训练的时候并不知道正确结果
相当于只有题目没有答案,AI只能根据自己观察到的特征,把认为相似的东西分为一组,虽然它不知道谁是猫谁是狗,但是也能区分出来。这种方法很适合从一堆东西中找到隐藏规律,用途也比监督学习广。


(3) 强化学习

以环境反惯(奖/惩信号)作为输人,以统计和动态规划技术为指导的一种学习方法。

这时AI不用做题,而是直接与环境互动, 通过环境给出的奖惩来学习,目的是通过一系列动作获得最大的奖励,在互动的过程中AI会不断调整自己的行为,对环境变化做出最佳的应对,这种方法常被用来训练行为,比如玩游戏、无人驾驶、推送广告等等。

三、深度学习

人脑在识别人脸时,并不是像拼图一样,眼睛一块鼻子一块地分开提取,再拼成一张脸,而是分层次的学习提取

当人脸在视网膜上成像后,会先传到我们大脑的第一层感觉神经,从中解析出简单线条,再传到第二层感觉神经,提取出更多轮廓信息,这样一层层传递,最后到达我们的大脑皮层,形成人脸的整体形象,在和我们记忆中的形象做对比,就把人给认出来了,而机器识别人脸也使用了类似的办法。


现代人脸识别系统主要通过一种被称为深度神经网络的结构,来对人脸特征进行分层提取,再和记录的人脸做对比。

深度神经网络处理信息的方式,和人脑非常相似,外部图像输入后,信号会像人类神经传导一样,在网络中逐层传递,一些特征被放大,另一些特征被缩小,经过训练的神经网络,可以就此一步步排除干扰,找到那些稳定的人脸特征

以一个简单的深度卷积神经网络为例

第一层:先提取到一些简单的线条,表达图像中某些位置和某些方向上的轮廓。
第二层:会根据前一层检测出的线条,提取一些局部特征,如眼睛、鼻子、嘴巴等。
第三层:提取大体的人脸轮廓。

通过这样的多层处理就可以从原始图片中提取出表达人脸信息的有效特征,而光线、位置、姿态等和身份无关的因素,则在特征提取的过程被一步步地滤除

四、机器博弈

就是,机器博弈就是机器下棋,下棋是人类想到能够体现机器智能最早的方式之一,它代表的是一类决策技能。AI要做的是在多种可能性中,选择最好的那一个。

2019年,AlphaGo先后战胜世界围棋冠军李世石和柯洁,围棋曾被称为人类智力的圣杯,以至于当时棋坛上一片绝望之声。

AlphaGo是怎么做到的?

首先可能想到的是暴力搜索,也就是穷举所有可能,找到最好的那一步,但围棋的棋盘,是19*19的方格,每一格可以下白子、黑子以及无子,加起来复杂度达到了3361次方,约等于10172次方,远远大于宇宙中所有原子的总数10^80次方,所以这个方法显然是行不通的。
那么首要的问题就是解决搜索范围,我们人类下棋,也并不会考虑所有情况,而只会根据棋感,在脑海想最好的那几种走法,然后在想这之后对手最有可能的走法,在想接下来自己最可能的走法,如此几步大致做出判断,AlphaGo的思考方式也和这差不多。

使用两个深度神经网络来充当自己的大脑,每个神经网络都可以通过学习人类棋谱,或者自我对弈来积累经验。

其中一个被称为策略网络的大脑,主要思考下一步走什么,它会凭借学到的经验,给出当前棋局下,在每个点落子的概率,那些概率低的点会被它忽略,概率高的点则被纳入考虑范围。

而另一个被称为评价网络的大脑,则会根据经验,评估在每一步落子之后,黑棋或者白棋赢棋的机会,它不关心过程,只关心结果,那些评价低的棋子,同样也会被丢弃。

这样的两大脑相互配合,就将围棋无比巨大的搜索空间,压缩到了可控的程度,AlphaGo也就此成为一位围棋大师。

有意思的是一开始科学家们使用人类大师的棋谱,来给AlphaGo积累经验,但后来证明,加入了随机走子,自我博弈之后,AlphaGo变得更聪明了,这说明人类的认知是有限的,但AI却可以凭借超快的自我搜索能力突破这种局限。

AlphaGo的升级版AlphaGo Zero,完全摒弃人类经验,仅通过三天的自我博弈训练,就以100:0的战绩完败了AlphaGo

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容