HIVE

基本操作

hive进入hive模式 exit; 退出hive模式

  • 展示正则匹配表名
    hive> use ad_search;
    hive> show tables;
    hive> show databases like "w.*"; #正则匹配

  • 建表
    hive建表:在local目录下 vim test_wangpei.hql
    按i进入insert模式,输入下面的内容
    use ad_search;
    create table test_wangpei(
    id INT,
    number FLOAT,
    someStrings STRING)
    row format delimited
    fields terminated by '\t' lines terminated by '\n'
    stored as textfiles;
    按esc退出insert模式,然后输入:wq保存退出

  • hql的执行
    如果写了一段hql的代码(如上面建立表的代码村委test.hql),一定要在前面加上use ad_search;
    然后不需要进入hive模式,直接 hive -f test.hql (比如建一个表格 以及其他操作),这样就执行了建表操作

  • 格式化数据的导入
    有了表了,现在需要把数据导入进去,且你的表在ad_search下创建的话
    hive> use ad_search;
    hive> load date local inpath '当前目录下的文件' into table test_wangpei
    hive> select * from test_wangpei limit 10

  • 查询其他大表,把查询输入传入指定目录
    use ad_search;
    set mapred.max.split.size=3072000000;
    set mapred.min.split.size=2048000000;
    set mapred.min.split.size.per.node=2048000000;
    set mapred.min.split.size.per.rack=2048000000;
    set mapreduce.jobtracker.split.metainfo.maxsize=20000000;
    set hive.exec.reducers.bytes.per.reducer=500000000;
    set hive.exec.reducers.max=40090;
    INSERT OVERWRITE DIRECTORY '${hiveconf:target_path}'
    row format delimited fields terminated by '\t'
    后面就是一堆select操作

遇到的BUG:

  1. reduce阶段,慢慢从0%到99%, 一到100%就报错,大概率是reduce函数写错了,建议单独调试一下reduce函数

  2. reduce一直卡在99%,点进日志发现只有一两个node在running,且进度很慢,大概率是数据倾斜,也就是某个key的数据量巨大,把那些node塞爆了,当时设置了
    set mapreduce.map.memory.mb=20480;
    set mapreduce.map.java.opts=-Xmx15360m;
    set mapreduce.reduce.memory.mb=20480;
    set mapreduce.reduce.java.opts=-Xmx15360m;
    也没啥用,check了一下代码,确实把空给去掉了,
    set hive.exec.reducers.bytes.per.reducer=500000000;
    设置了什么也没什么用,因为我代码后面一步需要再次mr,所以这一步不需要对其进行sort和distribute,所以把这两步骤删了,他就不会按key分配给node了。。就不会塞某些node了。。

  3. Java heap space
    '''
    java.lang.OutOfMemoryError: Java heap space
    at com.hadoop.compression.lzo.LzoIndex.<init>(LzoIndex.java:57)
    at com.hadoop.compression.lzo.LzoIndex.readIndex(LzoIndex.java:189)
    at com.hadoop.mapred.DeprecatedLzoTextInputFormat.listStatus(DeprecatedLzoTextInputFormat.java:140)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
    at com.hadoop.mapred.DeprecatedLzoTextInputFormat.getSplits(DeprecatedLzoTextInputFormat.java:200)
    at org.apache.hadoop.hive.ql.io.HiveInputFormat.addSplitsForGroup(HiveInputFormat.java:305)
    at org.apache.hadoop.hive.ql.io.HiveInputFormat.getSplits(HiveInputFormat.java:385)
    at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getCombineSplits(CombineHiveInputFormat.java:408)
    at org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getSplits(CombineHiveInputFormat.java:571)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeOldSplits(JobSubmitter.java:363)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:355)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:231)
    at org.apache.hadoop.mapreduce.Job10.run(Job.java:1290) at org.apache.hadoop.mapreduce.Job10.run(Job.java:1287)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1656)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287)
    at org.apache.hadoop.mapred.JobClient1.run(JobClient.java:575) at org.apache.hadoop.mapred.JobClient1.run(JobClient.java:570)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1656)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:570)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:561)
    at org.apache.hadoop.hive.ql.exec.mr.ExecDriver.execute(ExecDriver.java:464)
    at org.apache.hadoop.hive.ql.exec.mr.MapRedTask.execute(MapRedTask.java:138)
    at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:160)
    at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:89)
    at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:1984)
    at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1726)
    at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1484)
    FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Java heap space
    heap space的时候注意调整map reduce的memory和container的大小,一般map reduce的memory mb要是container的3/4,给你的其他code一些空间。
    set mapreduce.reduce.memory.mb= 3;
    set mapreduce.reduce.java.opts=-Xmx4m;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json...
    博弈史密斯阅读 1,945评论 0 6
  • 前言: Hadoop的课程已经告一段落,基本上在零基础课程里不会再出现了,接下来的课程由若总来上,第一讲Have。...
    ly稻草阅读 3,610评论 1 9
  • 介绍 Hive是运行在Hadoop之上的数据仓库,将结构化的数据文件映射为一张数据库表,提供简单类SQL查询语言,...
    syncwt阅读 4,719评论 0 7
  • https://cwiki.apache.org/confluence/display/Hive/GettingS...
    金刚_30bf阅读 3,142评论 0 6
  • 有一事物 它没有美 却有气质 它没有乐 却有深度 若你问起它 那么 我告诉你 它就是历史
    月亮守护人阅读 121评论 0 0