新手怎样入门人工智能技术(经验之谈)

"人工智能技术"这一近几年来占有了全部互联网技术江山半壁,不但让顶尖优秀人才涌进这方面行业,也让大量的平常人触碰到,可是不得不承认,人工智能技术是有门坎的,最先你要有比较不错的英语功底和数学课思维逻辑,及其电子计算机的程序编写,这些看起来貌似很困难。但是随着互联网的不断发达,你会发现这些困难不再是那么难以逾越,网上会盛行着各种各样的课程,各种各样的资料,只要你愿意去挖掘、去寻找、去学习。我相信这些将不再是你迈向AI的门槛。

接下来将介绍一下学习路线:

一、机器学习

有关机器学习领域的最佳介绍,请观看Coursera的Andrew Ng机器学习课程。 它解释了基本概念,并让你很好地理解最重要的算法。

有关ML算法的简要概述,查看这个TutsPlus课程“Machine Learning Distilled”。

“Programming Collective Intelligence”这本书是一个很好的资源,可以学习ML 算法在Python中的实际实现。 它需要你通过许多实践项目,涵盖所有必要的基础。

这些不错的资源你可能也感兴趣:

Perer Norvig 的Udacity Course on ML(ML Udacity 课程)

Tom Mitchell 在卡梅隆大学教授的 Another course on ML(另一门ML课程)

YouTube上的机器学习教程 mathematicalmonk

单单学习书面知识也许不够深刻,个人推荐以下网站去实战一下学习到的东西

github开源项目(机器学习100天):https://github.com/Avik-Jain/100-Days-Of-ML-Code

易学智能(机器学习100天):https://www.easyaiforum.cn/case

二、深度学习

开始研究深度学习之前,最好重温一下大学数学。Ian Goodfellow传奇般的“花书”《深度学习》,简明扼要的概括了大部分重要主题。

建议大家尽可能深入地阅读线性代数、概率、信息理论的章节。每当读论文遇到深度学习概念时,都可以在书中找到参考。

Ian Goodfellow传奇般的“花书”《深度学习》在线的版本。

例如英文版在此:https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-bookmarked-pdf/deeplearningbook.pdf。而中文翻译版本在此:https://github.com/exacity/deeplearningbook-chinese

如果书本你觉得晦涩难懂,难么你可以听吴恩达的《深度学习专项系列课程(Deep Learning Specialization)》。

Coursera传送门:https://www.coursera.org/specializations/deep-learning网易云课堂的传送门:https://mooc.study.163.com/smartSpec/detail/1001319001.htm/

这五门课程主要讲的是:

1、神经网络和深度学习(4周)

2、改善深度神经网络(3周)

3、结构化机器学习项目(2周)

4、卷积神经网络(4周)

5、序列模型(3周)

前三门课程涉及一般的神经网络和深度学习,第四、第五门课程涉及特定主题。如果你打算搞视觉,第四课必听;如果你搞NLP、音频等,第五课必听。但如果你需要听第五课,那么建议也把第四课好好听一下。

这里鼓励大家一下,课程里每周的内容,实际上一两天就能学完,所以不要被课程表吓倒。劳逸集合、提升效率。

学到这个地步,其实就可以再去http://neuralnetworksanddeeplearning.com/,查看第三到第六章的内容,来强化你的概念。如果你有什么还没搞懂的,请前往Olah的博客。

以及,这时候你要开始看深度学习的论文了,从中学习知识。深度学习有个强烈的特点,那就是内容都非常新,阅读论文是跟上时代唯一的方法。不想被抛下,那么还是养成阅读论文的好习惯吧。

三、实战与竞赛

如果你到达了这一步,恭喜你,你可以开始在AI领域展现你自己了,你可以参加个中kaggle竞赛,在github上学习一些AI开源项目,如果你在这些地方有所成就,我想你的offer也必定不会让你失望的。

在算法性能突飞猛进之后,是什么限制了AI技术的落地?总结起来,以下几方面是普通企业拥抱人工智能、程序员们转行人工智能的拦路虎:

      1.模型训练耗时长:当前人工智能的核心是深度学习,它需要构建复杂的深度神经网络来完成各种任务。这些神经网络可能有数十亿的节点与训练参数。这种复杂模型的训练,往往需要数天甚至数月。

      2.算力成本大:算力是AI的基础。英伟达(Nvidia)的GPU显卡是深度学习主要的算力平台。然而,以GTX、Tesla等为代表的显卡,售价动辄数千甚至数万。

      3.学习门槛高:人工智能涉及高等数学、概率统计、线性代数等,又与程序设计、分布式计算、图像处理与自然语言处理等密切关联。许多人对人工智能的兴趣浓厚,却不知如何去学。

      4.开发门槛高:人工智能开发通常在Linux,开发环境安装步骤多、配置复杂。相关技术处于快速发展中,容易出现各种Bugs。人才短缺、开发环境难建等难题,使AI业务难以开展与落地。

在算力共享租赁方面,传统上,云计算是一种主要的算力共享模式。许多大公司,如Google、亚马逊、微软及华为、阿里、腾讯、百度、UCloud等,均提供GPU云主机。去年Nvidia制定了一项政策,用于个人的显卡,不可用于云与数据中心。这两个市场的显卡,算力相近时售价差近十倍。GPU云主机,火爆的同时,我们的感觉就是—“贵”。

另一种方式是共享主机。采用共享经济的理念实现经济实惠。主机可公司自建,也可采用P2P。用户按需租用。主机为普通PC或服务器,可使用相对实惠的GTX显卡(其实GTX1080Ti6K+的售价,也是贵)。

我们共选择了9家相关公司:

云服务:华为云、美团云与UCloud。云服务厂家多,这里选它们为代表。

国外共享主机:FloydHub、VectorDash、Vast.ai与ClusterOne。

国内共享主机:EasyAI与易学智能。

公司官网信息如表1所示。由于相关资料有限,描述未必完全准确,详情请到公司官网了解。


闲言少述,直接上表格。各指标的详细解读,请阅文后附录


表3服务指标比拼-2


表4算力共享服务总体感受


附录:指标详解

我们采用的11项指标如下:

价格:以1080Ti或算力相近的显卡为例。

开发环境配套:虚拟机是否预装深度学习框架及常用软件包

数据集配套:公开数据集主要包括两类,一是用于学术的公开数据集,二是各种AI竞赛的数据集。

培训配套:AI学习的配套教程,既包括算力平台的使用,也包括AI知识技能的学习。

讨论社区配套:AI开发所采用的各种框架、开发包,本身就在急速发展中。可以预见,AI开发面临的bug必然是层出不穷,一个AI学习与讨论社区,对于算力租赁是十分必要的配套。

分布式训练:加速AI算法的训练与执行,并发是主要手段。然而,现在的并发方法都很复杂很不好用。方便易用的并发执行,对AI开发者很有吸引力。

用户自有数据:具体的AI业务,当然要用业务相关的数据来训练。支持用户自定义数据上传,算力平台才能支撑各种实际业务的开发。

用户数据加密:用户数据的隐私保护,重要性不需多言。能否将私人数据保护好,也是用户挑选算力平台的重要依据。

存储与算力的可扩展:任务的不同,所需要的数据量与计算量,差别可以很大。这就要求算力平台提供足够的灵活性,可以让用户按需扩展资源。

主机形态:共享经济是好东西,优点是实惠,缺点是可靠性可用性的损失。一种形式是公司自建算力平台,分时租给不同用户;还有一种彻底的共享——P2P,提供主机的也是散落各地的普通用户,它的可靠性要差一些。

远程控制调节:立即在远程控制服务器程序编写并不方便。一些IDE早已适用远程控制调节。远程控制调节必须远程控制服务器开启相对的端口号与服务项目,当地还必须开展配备。尽管工艺流程繁杂,但对客户来讲,感受非常好。

部分内容来自知乎、CSDN等,欢迎大家在底下交流关于AI的问题!!!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。