前面说到过大数据对我们获取信息,找到世界的规律和模型有着重要的意义。在今天这个时代,数据包括了几乎一切,你的上网时间,访问的网站,看过的视频,听过的音乐和买过的东西。而这些大数据就是打开机器智能的钥匙。
机器智能是什么呢?我们理解的就是机器要能做一些人可以做的事,比如语音识别、图像识别、语言翻译、下棋等需要用到学习分析能力的事。这里要提到著名的图灵测试,让人和机器躲在幕后和幕前的裁判人交流,如果裁判无法判断哪一个是人哪一个是机器,那么机器就通过了图灵测试。我的理解是机器做到了人能做的事,而且做的和普通人一样好甚至超过普通人。
科学家们最先开始突破的是语音识别领域,也就是让机器识别人的声音。也就是说机器要能听懂人的话而且能输出我们人能看懂的话。开始的时候,人们试图以人类的学习逻辑来改进机器。你想想我们是如何学英语的,如果只靠死记硬背英语中的每一个表达,我们一辈子也无法说英语,我们学习语言靠得是理解和模仿。可是这个逻辑机器就不好使,你想想怎么知道机器理解了某句话呢?科学家明斯基举了一个例子,The pen was in the box这句话机器可以通过分析语法知道意思是盒子里有一只钢笔。可是The box was in The pen这句话中的pen的意思是-小孩玩耍的围栏。机器怎么知道什么时候pen代表钢笔,什么时候代表围栏呢。这就让那些试图用人的学习模式套入机器的科学家在这个思路上看到了瓶颈。
直到贾里尼克用大数据解决语音识别的方法,人们才看到了大数据下的机器的飞跃。简单的说,贾里尼克是单纯的将语音识别问题变成一个通信问题。好比我们之间的谈话,一方发有意义的信息(编码过程),通过媒介的传播(电话,空气等),对方接受并理解信息(译码)。所以机器只需要正确提取声音特征就可以了。怎么提取呢,我的理解就是大量的听,输入大量的数据,让机器通过程序知道哪些是有意义的信息。也就是说机器用我们人类不会采用的策略进行学习,这就要求机器能存储大数据,并且能快速处理大数据。当然了具体的算法是贾里尼克和团队一起设计的了,我们知道大数据的作用就可以了。
现在再来看阿尔法go和李世石的比赛,机器不需要会像人一样思考,它要做的是输入大数据即各种顶尖高手的棋局,针对李世石下的每一步计算出各种情况下获胜的概率然后采用概率最大的下法就可以了。换句话说李世石不是在和一个人下棋,而是和这个世界的顶尖高手较量。而且机器优于人的地方在于它没有感情,情绪不会影响它发挥,一切只用交给算法和数据就行了。这里其实是人们在研究机器智能的时候,从人类模式转到数据驱动的思维转换。这个时候大数据就是一种巨大的资源,它的背后可以分析出人的种种行为。比如你老在亚马逊上买书,亚马逊就会经常给你发一些新书的邮件。有时候你会发现它推荐的书挺对你的胃口,这也是大数据的作用。我们的一切行为都可以量化成数据的时候,在机器眼中我们就只是一个比特吧。希望今天的内容对你有所启发,祝进步!