sqoop导入数据

1、从pgsql中导出整张表到hdfs上

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--target-dir /sqoop/cities \

-m 1

执行结果:

注意事项:

1、目标文件夹必须是不存在的

2、由于sqoop传输数据时默认采用4个map任务,-m x 表示使用x个map任务处理,有几个任务就会在HDFS的执行结果上有几个part-m文件

3、这里 -m 1 是由于传输的数据表没有设置主键,而sqoop默认采用主键字段进行拆分来达到并行任务的目的(默认采用4个map任务)。此时,既可以手动设置拆分字段,也可以将 -m 的值设为1。

4、--target-dir 该参数制定了文件输出到HDFS上的路径,同时还可以缺省该参数,该参数缺省时,问价将会输出到HDFS上当前用户的home目录当中,例如/user/root/。

5、在指定目标路径的参数中还有一个 --warehouse-dir 用来指定目标文件父目录

手动设置拆分字段例子如下:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--target-dir /sqoop/cities \

--split-by id \

-m 4

执行结果如下:


此处只有三个文件是由于表中只有3条数据。。。

--target-dir 参数缺省的情况:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1

执行结果:


--warehouse-dir 指定输出文件夹的父目录:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--warehouse-dir /sqoop/ \

-m 1

执行结果:



2、从pgsql上导出数据表的部分数据到HDFS

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

--where "country = 'USA'" \

-m 1

执行结果:


3、保护密码不暴露的三种方式:

使用 -P 参数,从标准输入读取密码:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--table cities \

-m 1 \

-P

执行效果:

将密码保存到文件当中,使用参数 --passwrod-file 来读取密码文件:

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--table cities \

-m 1 \

--password-file file:///home/root/password.file

别名模式(基于HDFS和基于本地两种模式)

sqoop 1.4.5和hadoop 2.6.0以及之后的版本才支持

HDFS:

hadoop credential create pgsql.pwd.alias -provider jceks://hdfs/user/password/pgsql.pwd.jceks

sqoop import \

-Dhadoop.security.credential.provider.path=jceks://hdfs/user/password/pgsql.pwd.jceks \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password-alias pgsql.pwd.alias \

--table cities \

-m 1

本地模式:



4、两种二进制格式文件存储

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--as-sequencefile

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--as-avrodatafile


5、在传输过程中对数据进行压缩

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--compress

执行结果:


默认压缩格式为Gzip


sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--compression-codec org.apache.hadoop.io.compress.BZip2Codec

sqoop可以使用hadoop支持的任何压缩格式,但hadoop不支持的压缩格式,sqoop无法使用


Not Splittable压缩格式,不能利用hadoop的并行性能

6、如何加快传输数据

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--direct

直连模式,传输速度更快,但是目前只有mysql和pgsql支持,而且据说HBase也不支持这种模式,反正限制比较多,具体情况大家可以亲身实践下


7、覆盖默认的数据映射类型

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--map-column-java id=Long

数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java DB_ID=String,id=Integer


8、导入数据中空值的处理

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table cities \

-m 1 \

--null-string '\\N' \

--null-non-string '\\N'

sqoop提供了--null-string来处理字符类型的空值,提供了--null-non-string来处理非字符类型的空值。值得注意的是,这两个参数可以让你用任意的值去替换空值。

另外,export导出数据则使用另外的参数来处理空值


9、一次性传输数据库中所有表

sqoop import-all-tables \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres

-m 1

传输除指定表之外的所有表:

sqoop import-all-tables \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--exclude-tables cities,countries \

-m 1



10、只导入新数据

sqoop import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table users \

--incremental append \

--check-column id \

--last-value 1



11、pg数据表更新后同步导入hdfs

创建同步更新job(需要输入密码):

sqoop job \

--create users \

-- \

import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password postgres \

--table users \

--incremental append \

--check-column id \

--last-value 0

执行job进行数据更新导入:

sqoop job --exec users


查看目前创建的自动更新导入的job:

sqoop job --list


删除job:

sqoop job --delete visits


查看已存在job的详细信息:

sqoop job --show users



创建在执行时不需要输入密码的job:

sqoop job \

--create users \

-- \

import \

--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

--username postgres \

--password-file file:///home/root/password.file \

--table users \

--incremental append \

--check-column id \

--last-value 0

执行job:


无需输入密码,直接执行

另外一种不需要输入密码的方式(安全性较低,不推荐):



12、

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容

  • 过目不忘的人,是极少的存在。我们的大脑不止是用来记忆,最重要的是用来思考,别让琐碎的杂事,阻碍了思考。 书读百遍,...
    月半鸭阅读 237评论 3 2
  • 春之苗+作业5 这次作业明天中午12点前交。 各位同学,咱们写作训练营第五次课的作业如下: 1. 模仿湖南儿歌《月...
    春之苗阅读 153评论 2 1
  • 两人回到家,肖逸的父亲正在厨房里忙着烧饭,个子不高,圆圆的脸戴着厚底的眼镜,温舒怡只能隔着厨房玻璃门问候,对方微微...
    冯路易阅读 202评论 0 0