原文:https://yq.aliyun.com/articles/259119
菜鸟筑基:本阶段的人才以大数据基础理论的学习为主,尚不能胜任真实的项目或者工作;
初入江湖:本阶段的人才已经具备了初步的大数据实践的能力,建议通过实践(做项目、打比赛等)来更好地带动学习;
登堂入室:本阶段的人才需具备大数据科研论文的调研、阅读和理解能力,能够成功地将论文中的算法进行复现;
华山论剑:本阶段的人才能够独立地开展大数据新技术的研究工作,具有发表原创性论文的能力。
一. 菜鸟筑基
1. 资源:“Coursera”、“Arxiv”以及“Github”。
Arxiv上有最新最全的共享论文,论文中会对各类算法进行详尽的阐释
网站名叫“gitxiv”,会帮助各位找到论文与代码的对应关系。
重点:不当作一门“学科”来学习,而应该被当作“工具”来用。
2. 不要看书、不要看书、不要看书
重点:好书是用来查的而不是用来啃的。不要纠结于某些细节问题,看不懂的地方可以先记下来,这类细节往往会在各位后面实践过程中的具体场景下恍然大悟。
3. 找对好基友,连滚带爬往前走
小结:千万不要在这个阶段停留太久
想做“计算机视觉”或者“自然语言处理”等偏AI方向的同学在完成吴恩达的《深度学习》课程后,想做“数据挖掘”的同学在完成吴恩达的《机器学习》课程后,就可以选择相应的实践项目准备进入下一阶段了。
二. 初入江湖
1. 找到一个最高的baseline
把前人已经做出成果,当自己要去做相同工作时的参照。
如果有大神带队进行实践的话,那么带队大神此前的实践经验就成为了全体小队成员的“baseline”。
没有“大神”怎么办?
如果对于一类问题无从下手:
利用好国内的“万方”以及“知网”这样的论文查询平台,去查询相关领域国内普通高校的学位论文,这样的论文绝大部分都是中文并且会在论文中介绍大量的基础背景知识。
如果是对某一技术方的特定知识点不明所以:
利用好国内的诸如“知乎”、“简书”以及“CSDN”这类的知识分享网站
以上两点的共同技巧:
多搜几篇文章对比着看。同一个概念或者技术,一篇文章很难全面描述清楚。作者不同,解释问题的出发点也不尽相同。所以看不懂某篇文章时,不用急躁,接着看下一篇文章就好。另外,前文提到的“好书”在这里就可以用来查了,读者会发现原来想记都记不住的知识点,只要“查”完并且“用”过,那么一般想忘都忘不掉。
对baseline所谓“高”的定义是,越接近学术前沿,实践效果越好,就认为越“高”。一般情况下,可参照的成果越“高”,中文文献就越少。
end