人工智能概念在全球盛行的今天,经历过资本寒冬的创业者们也纷纷进入该领域,行业内超过80%的投资人开始在这一领域物色项目。现在的AI能做什么?让我们先来看看人工智能的两大核心要素——数据和算法。
请先把人工智能想象成为一辆奔跑的汽车,数据可以理解成为它的汽油,这是AI行驶的动力之源,如果没有数据,再好的车也没法启程。而算法可以理解为它的发动机,随着科技进步,发动机的性能会越来越强;即使同一时期,不同开发者设计的算法也有优劣之分,优秀的算法驱动能力强,汽车跑得快,就可以同算法差一些的对手拉开差距。所以,有大数据和好的算法,才能够让“AI汽车”一路狂奔。
数据要有多大才能叫“大数据”?
科技行业的“大数据”形容的不仅仅是数据的数量,它包含三个特征:数量、维度和完备程度。
关于大数据需要多“大”,维基百科上说:指所涉及的数据量规模巨大到无法通过人工,在合理时间内解读和处理的信息。这个量级目前业内普遍认为需要至少1T(1T=1024GB,1GB=1024MB),相当于至少数千万上亿条数据信息。由此可推断,并不是所有规模的公司都适合谈使用大数据,如果你的企业刚创立不久,需要谨慎对待数据,因为在数量不达到足够多之前,数据分析可能会将你领向偏见的误区。
除了数据的数量要足够大之外,数据信息的多维度和完备程度对于人工智能的学习也非常重要。IBM的研究员萨姆·亚当斯曾经做过一个思维演练,如果先给机器一个数据:39,它可能并不能够从数字中有任何发现,这只不过是一个大于38而小于40的数,除此以外并不能获得更多信息;接着,如果再给多一点儿的信息:39度,那么这个数据表示的可能是角度或者是温度;然后,再添加一个具体信息:39摄氏度,这显然是温度,而且是比较高的温度;最后,再告诉你这是某个人的口腔温度读数,于是这时候,机器才能够知道这个人的体温超过了39摄氏度,说明他生病了。亚当斯认为,数据信息每多增加一个维度,机器对数据的理解就可能会发生显著的变化;因此,数据维度越多,完备程度越高,传递的信息就越具体,机器才能“把所有点连成线”,形成有利于我们理解的数据,从而做出有价值的成果。
智能时代,算法百家争鸣
所谓算法,是指研发工程师精心设计的一套数学模型,它就像一个解决方案,描述了解决某类问题的一系列操作步骤。而对于同一类问题,解决方案可以存在多种,在不同的情况下解决方案各有优劣;所以现阶段人工智能领域的算法层出不穷,适用的范围也不尽相同。
经典的人工智能算法已有数十种,比如决策树、随机森林、逻辑回归、贝叶斯、蚁群、神经网络等,未来还将创新更多。在实际应用中解决一个问题往往会运用到1或N种算法,比如战胜李世石的AlaphaGo就使用了基于神经网络算法的深度学习技术,以及蒙特卡洛树搜索算法才能实现超越人类棋手。
想在人工智能领域寻求商机的创业者,以及AI产品经理而言,学习理解和选择算法,将比写出算法本身更重要。就好像互联网时代优秀的产品经理虽然不需要coding(写程序代码),但必须要懂得技术如何实现,以及选择什么样的技术方案最合适;在未来的人工智能时代,对算法边界的理解(即什么算法适合用于什么场景),将会变成优秀创业者和AI产品经理重要的技能之一。
小结:
今天我们讲了人工智能的两大核心要素:数据和算法。
其中,数据必须具备量大(至少达到千万条以上),多维度和高完备程度三大特征才能称为大数据;这意味着你需要根据行业所处的规模判断数据分析的价值,规模越大价值越大,规模较小数据分析仅能做参考。
算法是解决问题的方案,它有很多种,如何使用需要根据不同情况具体分析;所以你现在适宜开始学习理解和选择算法,这将是未来优秀AI人才的必备技能之一。
预告:
下一篇文章,我们会以AlphaGo为例子,介绍一下机器学习和深度学习,如果你感兴趣,请留意关注微信公众号:智能加研究院