[ES]轻量级OLAP--Elasticsearch+Hive

打造轻量级OLAP(二):Hive + Elasticsearch - Treant - 博客园
http://www.cnblogs.com/en-heng/p/5943703.html

  1. 引言
    在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。在Kylin中不支持复杂数据类型(主要指array、struct、map),要求数据输入Schema必须是平铺的,但是平铺后丢失了用户的聚合标签信息,而没有办法判断某一个用户是否只有性别、常驻地标签。显然,我们需要一种支持复杂数据类型的OLAP数据库;底层为Lucene的Elasticsearch正在向OLAP融合,腾讯内部已经用基于Lucene的分析数据库Hermes来做多维数据分析。
    Elasticsearch(ES)在设计之初是用来做全文检索的搜索引擎,但随着倒排索引所表现出来优秀的查询性能,有越来越多人拿它做分析数据库使。可将ES视作文档型NoSQL数据库,一般情况下将具有相同schema的文档(document)归属于一个type,所有的文档存储于某一个index;ES与RDBMS的概念对比如下:
    Relational DB ⇒ Databases ⇒ Tables ⇒ Rows ⇒ ColumnsElasticsearch ⇒ Indices ⇒ Types ⇒ Documents ⇒ Fields

  2. 写数据
    广告日志与标签数据均落在Hive表,并且ES官方提供与Hive的集成。因此,我们首选用Hive向ES写数据。首先,采用ES做数据存储,创建表如下:
    add jar /path/elasticsearch-hadoop-2.3.1.jar;create external table ad_tag (dvc string,medias array<string>,c1_arr array<string>,week_time string)stored by 'org.elasticsearch.hadoop.hive.EsStorageHandler'tblproperties('es.nodes' = '<ip>:9200','es.resource' = 'ad-{week_time}/tag','es.mapping.exclude' = 'week_time');

在设计Hive表结构时,ES的计算UV的distinct count(cardinality
)存在着计算误差;因此,我们按dvc对其他字段做了聚合,UV的计算转换成了ES doc命中数。其中,es.nodes
表示ES的节点,只需配置一个节点即可;es.resource
对应于ES的Index/Type;es.mapping.exclude
在写ES时不会被索引的字段。因我们只有写操作而没有通过Hive查询ES数据,因此并没有设置es.query
。Hive向ES写数据如下:
set hive.map.aggr = false;insert overwrite table ad_tagselect media, a.dvc as dvc, case when c1_arr is null then array('empty') else c1_arr end as c1_arr, '2016-10-08' as week_timefrom (select dvc, app_name as mediafrom ad_logwhere is_exposure = '1' and day_time between date_sub('2016-10-08', 6) and '2016-10-08'group by dvc, app_name) a left outer join (select dvc, collect_set(c1) as c1_arrfrom taglateral view inline(tag) in_tbwhere day_time = '2016-10-08'group by dvc) bon a.dvc = b.dvc;

在写ES时,在构建索引时不需要分词,通过PUT index template方式实现之:
{ "template": "ad", "mappings": { "default": { "_source": { "compress": true }, "dynamic_templates": [ { "string_template": { "mapping": { "include_in_all": false, "index": "not_analyzed", "type": "string", "index_options": "docs" }, "match": "" } } ] } }}

  1. 多维分析
    ES官方的查询语言是DSL,主要分为两类:
    Query,相当于SQL中的where部分,可套用filter、match等;
    Aggregation,相当于SQL中的group by部分,在aggs内部也可以套用filter。

DSL可以嵌套,表达异常复杂的查询操作;但是,DSL过于冗长罗嗦。因此,官方提供了elasticsearch-dsl-py,可以将DSL等同于一段Python代码。我们的多维分析器便是基于此实现的(Python 3.5 + elasticsearch_dsl 2.1.0)
整体上曝光UV、有标签的UV、除去常用标签UV,以及每一个媒体上曝光UV、有标签的UV、除去常用标签UV的分析(相当于group by media with cube):
def per_media(index_name): """count(distinct dvc) group by media with cube""" ms = MultiSearch(using=client, index=index_name) all_doc = Search() all_doc.aggs.bucket('per_media', 'terms', field='medias', size=1000) tagged = Search().query('filtered', filter=~Q('term', c1_arr='empty')) tagged.aggs.bucket('per_media', 'terms', field='medias', size=1000) useful = Search().query('filtered', filter=~Q('term', c1_arr='empty') & Q('script', script="""['常驻地', '性别'].intersect(doc['c1_arr'].values).size() < doc['c1_arr'].values.size()""")) useful.aggs.bucket('per_media', 'terms', field='medias', size=1000) ms = ms.add(all_doc) ms = ms.add(tagged) ms = ms.add(useful) responses = ms.execute() result_list = [] result_dict = defaultdict(lambda: []) for resp in responses: # get per media uv(all, tagged, useful_tagged) print("Query %d: %r." % (responses.index(resp), resp.search.to_dict())) result_list.append(resp.hits.total) for buck in resp.aggregations['per_media']['buckets']: result_dict[buck['key']].append(buck['doc_count']) for k, v in result_dict.items(): # fill up default value 0 if len(v) < 3: result_dict[k] = v + [0] * (3 - len(v)) return result_list, result_dict

媒体与标签组合维度下的UV统计:
def per_media_c1(index_name):
"""return {(media, c1) -> tagged_uv}"""
s = Search(using=client, index=index_name)
tagged = s.query('filtered', filter=~Q('term', c1_arr='empty'))
tagged.aggs.bucket('per_media', 'terms', field='medias', size=1000)
.bucket('per_c1', 'terms', field='c1_arr', size=100)
result = {}
response = tagged.execute()
for buck in response.aggregations['per_media']['buckets']:
key = buck['key']
for b in buck['per_c1']['buckets']:
result[(key, b['key'])] = b['doc_count']
return result

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容