大宝大话大数据(二)——大数据的学习路径和方法

本文将对自己学习大数据的路径和方法做一个回顾,有意入门大数据开发的同学可以参阅我的学习过程,结合自己的实际情况,做一些优化和调整。以下内容都是我的一家之言,仅供参考。

首先说下学习方法的问题。

我刚开始学大数据的时候,还没有老师和学长给我理清大数据的整体架构。我还真是盲人摸象,今天学学MapReduce,明天看看Spark。当时上刘军老师《海量数据处理》这门课的时候,老师很好,很认真讲了Hadoop的原理,结构什么的。但是说实话,作用很小。在没有整体框架搭起来,没有一些实际的操作经验作为铺垫之前,就讲这些原理和细节,根本就听不懂在干嘛。

计算机技术又是一个讲究实效的学科,空洞的原理很快就会打消学习的兴趣,而且在公司是以结果为导向,看你能不能搞定。所以我自己总结的学习计算机某一项技术的三把斧:
- 快速上手,现学现用
- 遇到问题,网上百度
- 剖析原理,理解提高

比如我要学习Redis,第一步我就先从网上找资料,了解它是个什么东西,解决了一个什么问题,在整个计算机开发中属于什么定位;第二步就是在实际案例中,具体怎么使用。比如自己电脑安装一个Redis,用Java写一个读写Redis的小demo,中间遇到任何问题,先去网上找资源找答案,如果解决不了再去求助他人;在使用一段时间后,对Redis玩的比较溜了,就可以看一些高水平的博客,书籍,对Redis的原理,设计思路有一些了解,这样也会帮助开发,提升自己的知识储备。

这个套路是比较适合我的学习方式,我在自己学习Spark的过程中,基本就是这样。先快速学习了一些概念和demo,然后在美团做了一些的开发,最后翻过头来再学习Spark的原理,就理解的比较快。

学习方法本事就是见仁见智,这里仅供参考。

其次做为一个程序员,无论做前端、后台、客户端还是算法数据,有一些基础知识是必备的:
- 掌握编程语言,Java|C++ && Python|Shell
- 熟悉Linux常用命令
- 熟练SQL

我认为上述三项技能在日常工作中经常用到,有必要对其有基本的了解和使用经验。注意,这里只要求做到有使用经验,可以参阅API、文档去处理特定任务即可。有不会的百度就可以了。千万别花太大精力研究的太深,目前这个阶段用不着。

最后就是重头戏了,怎么开始学习大数据。

talkingbigdata2.jpg

还是把这张图贴出来,对这些组件还不清楚的读者可以翻阅我之前的文章。

第一步首先学习大数据的基石——Hadoop2.0+,尤其要理解HDFS、Yarn、MR在整个体系中的作用。基本技能是HDFS那点命令,重点理解HDFS的设计结构,HA机制,读写过程;MapReduce的原理,Hadoop2.0的改进点。在自己电脑上部署一个伪分布式的集群,尝试HDFS的操作。

第二步学习Spark,学习使用scala/python写一些批处理的程序。基本技能是Spark RDD的编程,重点理解常见算子、Spark任务提交流程、Shuffle、分区、数据倾斜怎么办。同样在自己电脑上安装spark,使用local、yarn两种模式提交jar包

第三步学习Hive,使用Hive shell做常见的表操作、使用Hive SQL做一些批处理。理解Hive是如何从SQL语句翻译到MR作业的。在此过程中,学习数据仓库的概念。同样自己电脑安装,学习使用。

第四步继续学习Spark进阶,学习Spark的其他组件、比如Spark SQL、MLlib等。还可以根据项目需求,学习Sqoop、Hbase等组件。这个时候可以做一些项目,比如结合Hive、HDFS、jdbc、Sqoop、Hbase做一些离线处理的项目;比如使用MLlib做一些简单的机器学习。通过上述四步,应该对基本的大数据批处理上手了。

第五步学习Flume,kafka。学习Flume的结构和配置,学习kafka的基本原理和结构,能使用java/scala写kafka的生成者和消费者demo。理解zookeeper在集群中的作用,和它的工作原理。电脑上安装软件,学习使用。

第六步学习Spark Steaming/Storm。使用scala/java写流计算的demo,理解有状态算子、checkpoint、window等概念。结合flume、kafka、做一个简单的日志处理平台。完成这一步对基本的大数据流计算上手。

第七部,实际上到这里,就对整个大数据有了基本的理解了。对各种组件有较多使用经验、对一些经典的组件原理也有所理解。这个时候可以根据需要,查缺补漏。继续学习新的大数据组件,或者补充学习一些AI的算法。

最后推荐一些看过的书做参考吧:
- 《Sparkk快速大数据分析》,初学spark可以看
- 《Spark大数据分析实战》,spark实战系列,可以跟着学一些项目
- 《Spark技术内幕-深入解析Spark内核架构设计》,在对Spark有了实践后,读一读理解spark的优秀设计
- http://spark.apache.org/ 官网,demo来源
- 《spark性能优化指南-初级篇|高级篇》 spark性能优化必看
- 《Hadoop实战》,很厚的一本书
- 《kafka入门与实践》,初学kafka可以看
- 《mysql必知必会》,SQL入门书籍
- 《疯狂的Java》,Java EE入门

还有一些博客
- http://lxw1234.com/ lxw的大数据田地
- https://www.iteblog.com/ 过往记忆
- http://dblab.xmu.edu.cn/ 厦门大学数据库实验室
- http://www.java1234.com/a/javabook/ 可以下载一些电子书

大数据知识点比较杂,需要有耐心和兴趣。可以从事数仓、ETL、数据分析、批处理开发、流计算开发、平台开发等相关工作。在目前主流的互联网公司、银行等,大数据已经非常成熟了,已经是生产运营不可缺少的一部分。对于最热的算法同学来说,熟练掌握大数据工具也是必备技能。所以欢迎同学们根据需要,尝试了解和学习大数据吧。

谢谢大家!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容

  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,267评论 0 34
  • 作业格式要规范,第一次课堂作业前,强调,演示一下,效果会比较好。不准学生在作业本上使用涂改液,只准用橡皮擦,而且不...
    maycccc阅读 1,051评论 0 0
  • 标签:理财 1月中旬收到朋友寄来的一本书,名曰:《富爸爸穷爸爸》。历经2个月,终于断断续续读完了这本介绍投资知识、...
    枫叶FF阅读 453评论 0 5
  • 不分前后的T恤。
    巫落阅读 217评论 0 0