群内2018_6月讨论整理

归档至github

说明

以下内容来自群中出现的问题,大家讨论的结果
Q群:432600958
微信群:加微信w3aboutyun,附上about云铁粉
部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。

两个集群间迁徙hive数据有什么方案 --by 阿黄生

时间

2018.06.01

内容

Step1
迁移hdfs数据至新集群,通过distcp实现

Step2
源集群metastore数据备份导出(mysql导出)

Step3
新的集群导入metastore数据(mysql导入)

Step4
升级hive内容库(如果hive版本需要升级操作,同版本不需要操作)

Step5
修改 metastore 内容库的集群信息(重要)

REF

Distcp
hadoop跨集群之间迁移hive数据

Scala优雅的实现

时间

2018.06.01

问题

存在一个Array[String] 例如 Array("A","B","C","D",....."Z")
现在希望替换B为 b1,b2,b3,b4,b5,然后转为String
即生成如下结果

Ab1CDEF...Z
Ab2CDEF...Z
Ab3CDEF...Z
Ab4CDEF...Z
Ab5CDEF...Z

怎么能写的优雅点?

思路

生成一个可变的Array,替换array(2) 然后mkString

创建SparkContext 两种写法

时间

2018.06.05

内容

第一种写法

val sc = new SparkContext(sparkConf)

第二种写法

val sc = SparkContext,getOrCreate(conf)

两者的区别在于,第一种写法是根据SparkConf 新建一个sparkContext,这里注意一旦设置完成SparkConf,就不可被使用者修改。
第二种写法,是先使用现用的SparkContext,没有再创建一个。主要用于多applications共享SparkContext。
api解释:

This function may be used to get or instantiate a SparkContext and register it as a singleton object. Because we can only have one active SparkContext per JVM, this is useful when applications may wish to share a SparkContext.
This method allows not passing a SparkConf (useful if just retrieving).
Note: This function cannot be used to create multiple SparkContext instances even if multiple contexts are allowed.

在实际应用中,如果没有多applications 共享sparkContext的业务需求,两者无差别。(不过getOrCreate这种写法看着好像厉害点)

编写应用的jar包 和 spark自带的jar包冲突

时间

2018.06.10

内容

问题描述

使用jpmml 报错如下:

java.lang.NoSuchMethodError: org.jpmml.model.JAXBUtil.createFilteredSource(Lorg/xml/sax/InputSource;[Lorg/xml/sax/XMLFilter;)Ljavax/xml/transform/sax/SAXSource;
        at org.jpmml.model.filters.ImportFilter.apply(ImportFilter.java:94)
        at org.jpmml.model.PMMLUtil.unmarshal(PMMLUtil.java:33)

查看jar包,能够发现有这个类。

查看依赖是否有冲突
mvn -Dverbose dependency:tree --> tree.txt

[INFO] +- org.jpmml:pmml-evaluator:jar:1.4.1:compile
[INFO] |  +- (org.jpmml:pmml-model:jar:1.4.1:compile - omitted for conflict with 1.2.15)
[INFO] |  +- com.google.guava:guava:jar:24.0-jre:compile

可以发现,使用jpmml时,使用的pmml的版本为1.4.1

<dependency>
    <groupId>org.jpmml</groupId>
    <artifactId>pmml-evaluator</artifactId>
    <version>1.4.1</version>
</dependency>

但是spark mllib 中自带的jpmml的版本为1.2.15,直接使用的时候,会因为jar包依赖冲突报错

解决方案

具体思路是使用shade。

Step1
新建一个空的项目,将jpmml以及它的相关依赖包以shade的打包成一个独立的jar包,对应jpmml相关类的使用均从此jar包引用。

<dependencies>
    <dependency>
        <groupId>org.jpmml</groupId>
        <artifactId>pmml-evaluator</artifactId>
        <version>1.4.1</version>
    </dependency>
    <dependency>
        <groupId>org.jpmml</groupId>
        <artifactId>pmml-evaluator-extension</artifactId>
        <version>1.4.1</version>
    </dependency>
</dependencies>


<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <version>2.4.2</version>
            <configuration>
                <createDependencyReducedPom>false</createDependencyReducedPom>
            </configuration>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <relocations>
                            <relocation>
                                <pattern>org.jpmml</pattern>
                                <shadedPattern>my.pmml.jpmml</shadedPattern>
                            </relocation>
                            <relocation>
                                <pattern>org.dmg</pattern>
                                <shadedPattern>my.pmml.dmg</shadedPattern>
                            </relocation>

                        </relocations>
                    </configuration>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>
  • 将org.jpmml映射为my.pmml.jpmml
  • 将org.dmg映射为my.pmml.dmg
    然后利用mvn clean install命令进行打包得到jpmml-base-1.0-SNAPSHOT.jar,创建一个属于你自己版本的jpmml包。之后将该包上传到私服maven镜像。

Step2
在工程中使用自己的jpmml包
原始的maven 依赖

<dependency>
    <groupId>org.jpmml</groupId>
    <artifactId>pmml-evaluator</artifactId>
    <version>1.4.1</version>
</dependency>

新的maven 依赖

<dependency>
    <groupId>my.pmml.jpmml</groupId>
    <artifactId>pmml-evaluator</artifactId>
    <version>1.0-SNAPSHOT</version>
</dependency>

原来的import

import org.dmg.pmml.FieldName;
import org.dmg.pmml.PMML;
import org.jpmml.evaluator.ModelEvaluator;
import org.jpmml.evaluator.ModelEvaluatorFactory;
import org.jpmml.model.PMMLUtil;

新的import

import my.pmml.dmg.pmml.FieldName;
import my.pmml.dmg.pmml.PMML;
import my.pmml.jpmml.evaluator.*;
import my.pmml.jpmml.model.PMMLUtil;

Ref

jpmml
用dependency:tree查看maven引入jar包的传递依赖
java 依赖包冲突,使用maven的Shade方式解决

关于图计算

时间

2018.06.26

内容

  • spark graphx实现的算法都比较简单,复杂的一般都得自己再写
  • 如果,数据量不大,java之类的都有一些开源的图计算jar包,能够支持
  • 我们对关系计算,引入了neo4j数据库,大数据量就在库中查询实现,小数据量引用开源图算法包

一个奇怪的问题: A master URL must be set in your configuration

时间

2018.06.28

内容

  val sparkConf = new SparkConf().setAppName("XXXX")
  val sc = new SparkContext(sparkConf)

这个放在main方法外面就会报异常。非常诡异。

REF

异常解决:A master URL must be set in your configuration

资料分享

Spark Summits介绍及如何下载相关视频资料

链接 密码:kuxh

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,968评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,682评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,254评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,074评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,964评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,055评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,484评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,170评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,433评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,512评论 2 308
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,296评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,184评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,545评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,150评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,437评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,630评论 2 335