使用Hive读写ElasticSearch中的数据(转载)

转自:http://lxw1234.com/archives/2015/12/585.htm


关键字:hive、elasticsearch、integration、整合

ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台上,很多数据存储在Hive中,使用Hive操作ElasticSearch中的数据,将极大的方便开发人员。这里记录一下Hive与ElasticSearch整合,查询和添加数据的配置使用过程。基于Hive0.13.1、Hadoop-cdh5.0、ElasticSearch 2.1.0。

通过Hive读取与统计分析ElasticSearch中的数据

ElasticSearch中已有的数据

_index:lxw1234

_type:tags

_id:用户ID(cookieid)

字段:area、media_view_tags、interest

Hive建表

由于我用的ElasticSearch版本为2.1.0,因此必须使用elasticsearch-hadoop-2.2.0才能支持,如果ES版本低于2.1.0,可以使用elasticsearch-hadoop-2.1.2.

下载地址:https://www.elastic.co/downloads/hadoop

add jar file:///home/liuxiaowen/elasticsearch-hadoop-2.2.0-beta1/dist/elasticsearch-hadoop-hive-2.2.0-beta1.jar;

CREATE EXTERNAL TABLE lxw1234_es_tags(

cookieidstring,

areastring,

media_view_tagsstring,

intereststring

)

STORED BY'org.elasticsearch.hadoop.hive.EsStorageHandler'

TBLPROPERTIES(

'es.nodes'='172.16.212.17:9200,172.16.212.102:9200',

'es.index.auto.create'='false',

'es.resource'='lxw1234/tags',

'es.read.metadata'='true',

'es.mapping.names'='cookieid:_metadata._id, area:area, media_view_tags:media_view_tags, interest:interest');

注意:因为在ES中,lxw1234/tags的_id为cookieid,要想把_id映射到Hive表字段中,必须使用这种方式:

‘es.read.metadata’ = ‘true’,

‘es.mapping.names’ = ‘cookieid:_metadata._id,…’

在Hive中查询数据

数据已经可以正常查询。

执行SELECT COUNT(1) FROM lxw1234_es_tags;Hive还是通过MapReduce来执行,每个分片使用一个Map任务:

可以通过在Hive外部表中指定search条件,只查询过滤后的数据。比如,下面的建表语句会从ES中搜索_id=98E5D2DE059F1D563D8565的记录:

CREATE EXTERNAL TABLE lxw1234_es_tags_2(

cookieidstring,

areastring,

media_view_tagsstring,

intereststring

)

STORED BY'org.elasticsearch.hadoop.hive.EsStorageHandler'

TBLPROPERTIES(

'es.nodes'='172.16.212.17:9200,172.16.212.102:9200',

'es.index.auto.create'='false',

'es.resource'='lxw1234/tags',

'es.read.metadata'='true',

'es.mapping.names'='cookieid:_metadata._id, area:area, media_view_tags:media_view_tags, interest:interest',

'es.query'='?q=_id:98E5D2DE059F1D563D8565'

);

hive>select*fromlxw1234_es_tags_2;

OK

98E5D2DE059F1D563D8565四川|成都购物|1购物|1

Timetaken:0.096seconds,Fetched:1row(s)

如果数据量不大,可以使用Hive的Local模式来执行,这样不必提交到Hadoop集群:

在Hive中设置:

sethive.exec.mode.local.auto.inputbytes.max=134217728;

sethive.exec.mode.local.auto.tasks.max=10;

sethive.exec.mode.local.auto=true;

setfs.defaultFS=file:///;

hive>selectarea,count(1)ascntfromlxw1234_es_tagsgroupbyarea orderbycnt desc limit20;

Automaticallyselectinglocalonly modeforquery

Totaljobs=2

LaunchingJob1outof2

…..

Executionlog at:/tmp/liuxiaowen/liuxiaowen_20151211133030_97b50138-d55d-4a39-bc8e-cbdf09e33ee6.log

Jobrunningin-process(localHadoop)

Hadoopjob informationfornull:number of mappers:0;number of reducers:0

2015-12-1113:30:59,648nullmap=100%,reduce=100%

EndedJob=job_local1283765460_0001

Executioncompleted successfully

MapredLocaltask succeeded

OK

北京|北京10

四川|成都4

重庆|重庆3

山西|太原3

上海|上海3

广东|深圳3

湖北|武汉2

陕西|西安2

福建|厦门2

广东|中山2

福建|三明2

山东|济宁2

甘肃|兰州2

安徽|合肥2

湖南|长沙2

湖南|湘西2

河南|洛阳2

江苏|南京2

黑龙江|哈尔滨2

广西|南宁2

Timetaken:13.037seconds,Fetched:20row(s)

hive>

很快完成了查询与统计。

通过Hive向ElasticSearch中写数据

Hive建表

add jar file:///home/liuxiaowen/elasticsearch-hadoop-2.2.0-beta1/dist/elasticsearch-hadoop-hive-2.2.0-beta1.jar;

CREATE EXTERNAL TABLE lxw1234_es_user_tags(

cookieidstring,

areastring,

gendercode STRING,

birthday STRING,

jobtitle STRING,

familystatuscode STRING,

haschildrencode STRING,

media_view_tagsstring,

order_click_tags STRING,

search_egine_tags STRING,

intereststring)

STORED BY'org.elasticsearch.hadoop.hive.EsStorageHandler'

TBLPROPERTIES(

'es.nodes'='172.16.212.17:9200,172.16.212.102:9200',

'es.index.auto.create'='true',

'es.resource'='lxw1234/user_tags',

'es.mapping.id'='cookieid',

'es.mapping.names'='area:area,

gendercode:gendercode,

birthday:birthday,

jobtitle:jobtitle,

familystatuscode:familystatuscode,

haschildrencode:haschildrencode,

media_view_tags:media_view_tags,

order_click_tags:order_click_tags,

search_egine_tags:search_egine_tags,

interest:interest');

这里要注意下:如果是往_id中插入数据,需要设置’es.mapping.id’ = ‘cookieid’参数,表示Hive中的cookieid字段对应到ES中的_id,而es.mapping.names中不需要再映射,这点和读取时候的配置不一样。

关闭Hive推测执行,执行INSERT:

SET hive.mapred.reduce.tasks.speculative.execution=false;

SET mapreduce.map.speculative=false;

SET mapreduce.reduce.speculative=false;

INSERT overwrite TABLE lxw1234_es_user_tags

SELECT cookieid,

area,

gendercode,

birthday,

jobtitle,

familystatuscode,

haschildrencode,

media_view_tags,

order_click_tags,

search_egine_tags,

interest

FROM source_table;

注意:如果ES集群规模小,而source_table数据量特别大、Map任务数太多的时候,会引发错误:

Causedby:org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest:

FOUND unrecoverable error[172.16.212.17:9200]returnedTooManyRequests(429)-rejected

execution of org.elasticsearch.action.support.replication.TransportReplicationAction$PrimaryPhase$1@b6fa90f

ONEsThreadPoolExecutor[bulk,queue capacity=50,

org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor@22e73289[Running,pool size=32,active threads=32,queued tasks=52,completed tasks=12505]];

Bailingout..

原因是Map任务数太多,并发发送至ES的请求数过多。

这个和ES集群规模以及bulk参数设置有关,目前还没弄明白。

减少source_table数据量(即减少Map任务数)之后,没有出现这个错误。

执行完成后,在ES中查询lxw1234/user_tags的数据:

curl-XGET http://172.16.212.17:9200/lxw1234/user_tags/_search?pretty -d '

{

"query":{

"match":{

"area":"成都"

}

}

}'

数据已经写入到ElasticSearch中。

总结

使用Hive将数据添加到ElasticSearch中还是非常实用的,因为我们的数据都是在HDFS上,通过Hive可以查询的。

另外,通过Hive可以查询ES数据,并在其上做复杂的统计与分析,但性能一般,比不上使用ES原生API,亦或是还没有掌握使用技巧,后面继续研究。

相关阅读:

ElasticSearch集群安装配置

ElasticSearch与Hive整合官方文档

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容