【转】董西成问答整理第二课

一、spark-shell在namenode的stand-by节点执行会报sparkContext出错,然后到active的namenode的机器起spark-shell就可以了。为什么这样

你程序里有写hdfs地址了吗?需要写为逻辑名

二、hadoop集群中有5个节点,其中1个主节点,1个备用节点,3个数据节点(数据节点上有日志节点),分配内存的时候,主备节点各分配了64G,数据节点各分配了12G,请问董老师,这样分配合理么?是不是随着数据的不断增多,主备节点的内存消耗会成线性增长? ps:平时datanode节点内存消耗平均保持在8G左右,主节点目前已经占用了8G多。

随着数据的增多,内存占用量必然增多,你的集群应该不是问题,因为节点数目太小了!64GB内存绰绰有余,现在主节点占用内存为8GB,后面再加数据并不会线性增长。 你所说的数据结点仅仅是datanode吗,nodemanager计算节点呢,对于数据结点,12GB内存太多了,调小点,4GB就够了。你现在datanode内存使用是8GB,如果调整4GB,内存使用就是4G,这是因为JAVA GC策略没有设置,你现在给datanode多少内存,他能消耗多少!

三、Scala中方法调用时,什么时候可以省略掉“.”?

只有一个参数的方法,比如1.+(2)可以写为1 + 2

四、driver 不需要计算,要的内存是用来干嘛的?一般是不是需要比较小的内存就ok?

只有调用sc.的代码才会交给spark分布式去执行,其他的仍在你driver本机执行

五、driver 不需要计算,要的内存是用来干嘛的?一般是不是需要比较小的内存就ok?

** 只有调用sc.的代码才会交给spark分布式去执行,其他的仍在你driver本机执行 1、driver需要广播一个变量。 2、driver还需要接收各个Executer返回的数据,需要在driver端对其做聚集,合并或可视化等。 在以上情况下,数据非常大的话较小的内存是不行的。**

六、如果不用maven,直接在程序中设置参数以及打包可以运行吗?

可以,但是无法自动化做啊,你这个每次需要人工做

七、时间可能比较赶,我比较想看到 老师在IDEA上直接操作 多种模式,因为本人在IDEA提交spark程序的时候,yarn-client模式会报错,其他模式没有问题!

这是某位同学的提问,请大家注意,IDEA中只能运行local模型,其他分布式模式无法在idea中运行,必须采用命令行方式提交,这是由于分布式模式下,必须要分发jar包,idea中不能自动打包分发jar包!

八、在yarn-client模式下,client提交的job,driver在client端,那App master上运行的是什么?

App master会与yarn的ResourceManager通信, 申请资源来运行executor。Spark作业跟yarn申请资源的代理。

九、yarn-cluster模式如果driver挂了,重启的话任务会完全重新启动吗?

此模式下,driver运行在集群里面,如果driver挂了,ResourceManager会重新启动,这是一个全是driver,已经运行的task会被重新调度和运行。用户不需要再干预。

十、之前董老师讲课的时候讲到过中搜的日志统计与分析系统,它的可视化是怎么实现的呢? 现在做可视化用什么工具比较好?

** 推荐三个: 开源的:百度开源的 Dcharts:http://echarts.baidu.com D3.js: https://d3js.org/ 商用的:tableau**

十一、Spark 从HDFS中创建RDD时,并行度(Partitions)是如何定的?

有几个block就会有几个partitoin。spark内部实现会进一步讲解。

十二、分布式估算Pi时,val x = random * 2 - 1,random具体指的是什么?

random是scala的库函数,随机产生0-1之间的double类型的数字。

十三、数据库连接对象、es的连接对象能否放入到广播中吗?我现在是把连接字符串放入到广播中,然后在rdd中创建数据库连接对象。对象使用的是单例。您是否有什么好的方式创建这些对象呢?

不能广播,因为连接的对象不能序列化。

十四、1.算pi值的那个例子中,有slices,这个跟配置文件中的线程数有关系吗? 2.pom.xml中写的是参数配置吗?如果写在pom里了,在执行jar包的时候还用加上参数吗 谢谢

slices表示task数目,配置文件中的线程数表示可以同时跑的task数目,比如slices=100, 线程数是10;不建议把参数写到pom.xml中,建议提交的时候指定,因为参数经常变动,而jar包不会经常生成

十五、一张表,如果其中有些数据会删除或者增加变动,也可以用cache吗,做实时计算的时候

可以cache。如果有变动,需要重新cache。

十六、如何提高spark读取hbase的效率?

这里写图片描述
增加过滤条件,只读取需要的列;增加cache等,具体参考hbase优化

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容