我们回顾人工智能60年的发展史梳理一下,人工智能技术发展大致可分为三个阶段。
第一阶段为计算智能,主要表现为能存会算,体现应用为神经网络、谷歌的AlphaGo;
第二阶段为感知智能,主要表现为感知外界,可以实现语音识别、图像识别等;
第三阶段为认知智能,认知智能能够实现自主行动,例如能够完全独立驾驶的无人汽车。“强人工智能”属于第三个阶段,现时的科技水平仍不可企及。
要想实现人工智能就离不开三个必要条件:硬件、算法、数据;比如以Nvidia为代表的GPU、深度学习算法及互联网大数据的成熟推动感知智能取得突破性进展。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。
在深度学习算法出现之后,语音识别和视觉识别成功率分别达到95%和99%,基于深度学习算法开发的产品所需的人工调试和专家处理少,并且能达到相同或者更好的效果,这也是为什么互联网公司纷纷加入人工智能的原因。
现在异常火爆的深度学习研究与应用不等于人工智能,深度学习只是人工智能领域中机器学习方法之一;尽管在某些领域应用效果很好,但深度学习仍然存在明显的理论和技术局限性;
我们完全可以从投资者的角度来看,机器学习、图像识别和智能机器人,是目前投资回报率和产业成熟度相对较高的三个人工智能细分领域,同时也是未来市场空间最大、行业增速最高的三个细分领域。未来的投资热点会在智能驾驶、医疗、教育、金融等方面,这也意味着这几个领域的AI创业创新公司的竞争将会比其他领域来得更加激烈。
既然竞争那么激烈,那我们如何解决人工智能中的大数据的数据问题呢?
答案是 —— 模拟+无监督学习
我们在机器学习研究当中,使用合成图像来训练神经网络要比使用真实图像更有效。因为合成图像数据已经被标记和注释,而真实的图像数据需要有人耗费巨大的精力去标记计算机看到的每件事物。
当然,一种算法所了解的内容与真实世界中的场景总会有所不同。为解决该问题,需要提高合成图像数据的训练效果,应用“模拟+无监督”的学习方法,以提高模拟图像的真实感。使用一种经过修改的新型机器学习技术,“生成对抗网络”(GAN),让两个神经网络彼此对抗,从而生成更逼真的图像。
目前技术正在经历从计算、连接再到智慧的进化;利用好机器学习这个工具,并不一定需要读一个计算机博士学位,但有必要了解一些基本的概念,了解各种技术的优缺点和能力边界;机器学习的核心就是预测;数据库里的数据进行运作统计和分析算法,压缩并进行选择,将数据变为信息,学习算法将这些信息吞下、消化,然后将其变成知识;机器学习讨论是概率,知识工程学讨论逻辑;未来属于那些深深懂得如何将自己的独特专长与算法的擅长结合起来的人;
比如我们经常看到的看图说话就是,一个图片进来,我希望这个计算机讲出一个故事,比如一句话“两个男人在玩飞盘”。这个模型,我们是用了一个图片的模型,再加上一个语言的模型。图片的模型用的是卷积神经网络,语言的模型用的是一个 LSTM。
其实不管我们人工智能到底怎么产生了决策能力,反馈都是非常重要的。现在流行的对抗式生成网络、强化学习等算法,其实强调的都是反馈的效果和价值。在人工智能真正实现的时候,我觉得两个因素非常重要,第一是数据逐步归一。
这里并不是强调大数据分析挖掘带来的价值,而是指真正信号的输入,如果所有数字化的东西能够完整地传递到信息处理系统里面,使得信息系统能够真正获取全量信息,就有可能产生真正有价值的反馈处理;另一个指业务闭环打通。我们在构建人工智能系统时,一定要打造所谓“AI之环”。
大数据强调的是静态数据的分析(大数据也有静动态数据分析,实时大数据就是动态数据 ),而一个可成长的系统往往指的是动态的系统。一个存在闭环反馈的系统才能够长期发展下去,甚至活下去。所以,这是在构建AI过程中一个非常重要的趋势:一定要构建一个闭环性系统,使它能够真正具备长期发展的学习能力。
在人们计算体验改善的过程中,算法的进步自然功不可没。例如,话题模型(topic-modeling)、点击率预测(click-through prediction)等一系列算法的出现与不断优化,使得例如推荐系统等信息服务的质量逐步提高。但是,在海量的数据规模上,要应用这些算法以解决问题,仅有理论是远远不够的。
我们显然不能指望单台计算机运行串行程序来维持当今互联网级别的计算和服务。而随着数据内容的增长和用户量的剧增,更多的信息也使得我们面临的挑战愈加严峻。因此为了不断应对新时期信息处理规模的需要,从科学研究到工程实践,分布式计算的相关理论都得到了长足的发展,多个分布式系统先后涌现。
它们将规模庞大的计算机联合起来,从而有效地解决大规模的计算问题。其中,图计算系统就是其中一只重要的分支,从Pregel到GraphLab再到PowerGraph,她们解决的问题范围逐步增大,性能也不断提升。图计算系统就是主要针对图结构数据处理的系统,并在这样的数据上进行针对性优化的高效计算。图(Graph),将信息中的实体,以及实体之间的关系,分别抽象表达成为顶点以及顶点间的边这样的结构数据。
比如在机器学习中需要处理的很多信息是由实体和关系构成的。例如:用户和电影就是实体,他们之间的喜好构成了实体间的关系;搜索查询和商品也是实体,他们之间的点击率构成了实体间的关系;图计算系统可以利用图结构的特性,有效地进行数据存储和调度执行。可以通过基于图的划分方法将数据更平均的分发给多台机器,让他们并行执行,保证各机器的负载均衡,并且可以根据图的结构信息来更好的安排数据的存放以改进计算时的数据局部性,从而带来更高的性能。
诸如PageRank这样的应用,传统的图计算系统已经可以很高效地处理了。用户可以利用系统提供的编程模型接口实现相应算法的逻辑,然后将数据灌入系统运行即可。然而,许多常用的机器学习应用并不能直接采用传统的例如PowerGraph这样的系统。这是因为,与传统的图计算应用相比,许多机器学习应用处理数据有着不同于传统图算法的模式。
例如小分批(mini-batch)和延时同步并行(SSP: Stale Synchronous Parallel)。前者需要按照指定的批量为单位处理数据,而后者是一种区别于传统的图计算中纯同步/纯异步当中的一种同步方式。这都需要对传统图计算系统进行重新设计,从而支持相应的功能。而这些重新设计的挑战在某种意义上也是机会——我们可以利用这些机器学习应用共同的内在属性,从而提高算法的执行效率。
因此,基于分布式图计算系统的经验和机器学习应用的理解,微软研究院提出了分布式机器学习系统——图学习TuX²(Tu Xue Xi)。TuX²作为一个全新的分布式图引擎,致力于融合图计算和分布式机器学习系统。TuX²继承了传统图计算系统中的优势:简洁的计算模型,高效的数据排布,均衡的负载分配以及超过10亿条边的规模处理能力;并对于分布式机器学习进行了大幅扩展和优化,以支持异质性、延时同步并行(Stale Synchronous Parallel),并提出了一种新的编程模型——MEGA(Mini-batch, Exchange, GlobalSync, Apply)。
大数据与AI乃至于云计算结合已是大势所趋。大数据提供管道,AI提供智能,大数据+AI成为目前行业的一个新兴技术栈,成为商业应用的必备。大数据被用于处理核心的数据工程挑战,而AI则用于以分析洞察从数据中提取价值。
云整合趋势越来越明显,比如AWS产品几乎要把大数据版图的所有的基础设施和分析细分领域都占据。就分析层面而言,AI大众化+自助工具的普及将使得数据科学走向自动化,数据科学家的光鲜程度将逐渐黯淡下来,未来将把焦点放在垂直领域方面(AI+金融),通过创新与协作的方式突围。