【技术帖】使用 Hue 与 Apache Kylin 交互

Apache Kylin 简介

Apache Kylin 是一个领先的开源分布式分析引擎,提供 Hadoop 之上超大规模的 SQL 查询接口及多维分析能力。在超大规模数据集上建立数据模型,构建支持多维分析的预计算 Cube,并开放通用的 ODBC、JDBC 或 Restful API 接口。这种独特的预计算 Cube 使 Apache Kylin 可以轻松应对超大数据集上的查询,并实现亚秒级响应。

Hue 简介

Hue 是一个简单易用的 SQL 编辑器,提供基于 Web 的开源图形用户界面,方便用户查询基于 Hadoop 的相关服务。SQL 是分析师最熟悉的查询语言,因此 Hue 可帮助他们轻松访问 Hadoop 上的大数据。

在本文中,我们将介绍如何连接 Hue 与 Apache Kylin,快速实现分析海量数据。

准备包含 Apache Kylin 配置信息的 Hue的Docker 镜像

准备 Hue 镜像

使用 Docker 拉取最新 Hue。

docker pull gethue/hue:latest

准备 Kylin JDBC 驱动程序

下载 Apache Kylin 安装包

wget -c http://mirror.bit.edu.cn/apache/kylin/apache-kylin-2.2.0/apache-kylin-2.2.0-bin-hbase1x.tar.gz

解压安装包

tar -zxvf apache-kylin-2.2.0-bin-hbase1x.tar.gz

使用 cp 命令复制 Kylin JDBC 驱动程序

cp apache-kylin-2.2.0-bin/lib/kylin-jdbc-2.2.0.jar .

hue$ ls

apache-kylin-2.2.0-bin  apache-kylin-2.2.0-bin-hbase1x.tar.gz  kylin-jdbc-2.2.0.jar

将 Hub 配置文件复制到主机

从 Docker 复制配置文件

docker run -it -d --name hue_tmp gethue/hue /bin/bash

cp hue_tmp:/hue/desktop/conf/pseudo-distributed.ini .

docker stop hue_tmp; docker rm hue_tmp

现在,在当前目录中可以看到 pseudo-distributed.ini文件。

在 pseudo-distributed.ini文件中配置Apache Kylin的连接。

vim pseudo-distributed.ini

将以下 Kylin 配置复制到该文件中,并根据你的Kylin集群信息修改具体的配置信息。

dbproxy_extra_classpath=/hue/kylin-jdbc-2.2.0.jar

[[[kylin]]]

      name=kylin JDBC

      interface=jdbc

      options='{"url": "jdbc:kylin://:/","driver": "org.apache.kylin.jdbc.Driver", "user": "", "password": ""}'

例如,将以下配置添加到该文件中。

  dbproxy_extra_classpath=/hue/kylin-jdbc-2.2.0.jar

  # One entry for each type of snippet.

  [[interpreters]]

    # Define the name and how to connect and execute the language.

    [[[kylin]]]

      name=kylin JDBC

      interface=jdbc

      options='{"url": "jdbc:kylin://localhost:7070/learn_kylin","driver": "org.apache.kylin.jdbc.Driver", "user": "ADMIN", "password": "KYLIN"}'

    [[[hive]]]

      # The name of the snippet.

      name=Hive

      # The backend connection to use to communicate with the server.

      interface=hiveserver2

编辑 Dockerfile。

touch Dockerfile

vim Dockerfile

将以下脚本粘贴到 Dockerfile 中

FROM gethue/hue:latest

​COPY ./kylin-jdbc-2.2.0.jar /hue/kylin-jdbc-2.2.0.jar

COPY ./pseudo-distributed.ini /hue/desktop/conf/pseudo-distributed.ini

​EXPOSE 8888

此配置会将 Kylin JDBC Jar 和 pseudo-distributed.ini 复制到 Docker 的 Hue 中。并在 Docker中暴露端口 8888。

构建并启动 Docker 容器

docker build -t hue-demo -f Dockerfile .

docker run -itd -p 8888:8888 --name hue hue-demo

Hue 已准备就绪,并在 localhost:8888 上运行。

现在可以从 Hue 中查询 Apache Kylin 的数据了。

在 AWS 上部署 Apache Kylin 和 Hue

下面我们将引导您在 AWS EMR 上部署 Apache Kylin 和 Hue。

在 AWS EMR 上安装 Apache Kylin

有关如何在 AWS EMR 上安装 Apache Kylin 的信息,可参考此文 。

在已配置 Apache Kylin 的 AWS EMR 上安装 Hue

在 AWS EMR 上安装 Apache Kylin 后,可使用 bootstrap 文件在已配置Apache  Kylin 的 AWS EMR 上轻松部署 Hue。

从这个 Github 上下载sh 文件并上传到 一个S3 存储桶中;

在json 中,将 Apache Kylin 主机、端口号、项目 和 账号密码替换成您自己的信息,然后在 AWS Command-line 中运行以下脚本来创建 EMR 集群。

请确保转义符与以下 json 中保持一致。

[

  {

    "Classification": "hue-ini",

    "Properties": {},

    "Configurations": [

      {

        "Classification": "notebook",

        "Properties": {

          "dbproxy_extra_classpath": "/opt/kylin_jdbc/kylin-jdbc-2.2.0.jar"

        },

        "Configurations": [

          {

            "Classification": "interpreters",

            "Properties": {},

            "Configurations": [

              {

                "Classification": "kylin",

                "Properties": {

                  "name": "kylin JDBC",

                  "interface": "jdbc",

                  "options": "{\"url\": \"jdbc:kylin://:/\", \"driver\": \"org.apache.kylin.jdbc.Driver\", \"user\": \"\", \"password\": \"\"}"

                },

                "Configurations": []

              }

            ]

          }

        ]

      }

    ]

  }

]

aws emr create-cluster --name "HUE Cluster" --release-label emr-5.10.0 \

--ec2-attributes KeyName=,InstanceProfile=EMR_EC2_DefaultRole,SubnetId= \

--service-role EMR_DefaultRole \

--applications Name=Hive Name=Hue Name=Pig \

--emrfs Consistent=true,RetryCount=5,RetryPeriod=30 \

--instance-count 1 --instance-type m3.xlarge \

--configurations file://configurations.json \

--bootstrap-action Path="s3:///download.sh"

集群状态变为 “Waiting” 后,在 Web 浏览器中输入 http://:8888,可以看到含 Hue 的集群已准备就绪。

结论

在本文中,我们演示了如何轻松配置 Hue 来查询 Apache Kylin 中的数据。Hue 是一款便捷易用的开源 SQL 编辑器,可帮助您分析Apache Kylin 等基于Hadoop的服务的数据。Hue 和 Apache Kylin 均可在本地或云端部署,便于在任何地方组合使用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容