可能是目前颜值最高的开源BI工具-Superset

image

没有声音,再好的戏也出不来
同样,没有可视化,再好的数据分析也不完美

数据可视化是大数据的『最后一公里

简介

  • Superset的Airbnb开源的数据可视化工具,目前属于Apache孵化器项目,主要用于数据分析师进行数据可视化工作
    • PS,Airbnb在数据方面做的很棒,相关的博客B格也很高,他们的博客名字居然叫『Airbnb Engineering & Data Science』,可见对于数据科学的重视
  • 在github上搜索数据可视化,Superset的star数已经远远超过其他可视化工具,文章的最后,我们也会对调研过的可视化工具进行若干对比


    image

目前支持的图表类型

111

2222

如何搭建

  • 第三方Docker项目
    • https://github.com/amancevice/superset
    • 推荐,使用docker-compose安装,支持SQLLite/PG/MySQL方式的元数据存储
    • 整个Docker包括3部分:1. 元数据 2. Redis缓存 3. Superset本身
    • 以SQLLite为例,简单的安装方式如下:
 mkdir /data1/superset 
 cd /data1/superset 

  git clone https://github.com/amancevice/superset.git 

  cd /data1/superset/superset/examples/sqlite 
  mkdir superset
  # 这个是SQLLite的数据文件,映射到Docker内部
  touch superset/superset.db

  # 这一步必须要做,否则Docker可能没有读写权限
  chmod 777 superset/superset.db
  
  # 启动Redis
  docker-compose up -d redis
  # 启动Superset
  docker-compose up -d superset
  # Superset本身启动需要几十秒,需要观察下才能执行下一步
  docker-compose ps   
  # 进行初始化,根据提示设置用户名密码
  docker-compose exec superset superset-demo
  • 我们考虑到元数据的安全性,就使用了自己的MySQL和Redis服务,基本思路就是使用docker-compose跑起来后,把相关的表结构dump到我们线上,再修改Superset的配置指向

问题与坑

中文的支持

  • 如果你想采用MySQL作为Superset的元数据,请务必修改所MySQL表结构里的charcter,默认是latin1,连中文的Dashboard名字都不支持

    • 多说一句,直接alter table modify是不可以的,需要把数据dump出来,sed修改一下,再灌入『资深DBA友情提醒』
  • ClickHouse方面

    • Superset使用的是cloudflare/sqlalchemy-clickhouse驱动,默认是支持中文的,但是在Python2的Superset版本上,会出现中文无法正常解析的问题,所以,如果使用ClickHouse,请使用基于Python3版本的Superset

超时问题

  • 部分数据分析的SQL,需要很久才能返回,默认的Superset是30秒超时,需要酌情修改
  • 在配置文件里修改
SUPERSET_WEBSERVER_TIMEOUT = 300
CACHE_DEFAULT_TIMEOUT = 60 * 60 * 24
SQLLAB_TIMEOUT = 300
  • 我们遇到最慢的可能就是几百秒,如果再慢,就建议把数据做二次提取了

默认的limit 5000条

  • 在配置文件里修改
config.py:ROW_LIMIT = 1000000

时区问题

  • 使用Docker启动的Superset,请务必修改Docker时区

部分画图Bug

  • 老版本,地图着色异常,升级新版后解决
  • 0.23.2在时间序列堆叠图中,存在Y轴移除的Bug,如图:


    image
  • 通过如下方式可以临时解决:


    image

地图渲染

  • Superset的地图渲染使用『ISO 3166-1』进行映射,相关文档见:Country Map Tools

什么时候用Grafana,什么时候用Superset

  • 时间序列,选Grafana
  • 数据量很大,用Grafana
  • 静态的日报、报表,Superset表现力很好

我们的创新

  • 有如下一个场景,我们很难以解决:
    • 有些数据报表,需要每天使用邮件的方式发送各个产品负责人以及相关老板
    • 有人问,为啥必须发邮件,而不能走系统。
    • 答:你让老板天天登陆系统来看么?未来也许可以,目前的阶段不现实。
    • 邮件可以非常直观的方式,是一种非常友好的通信方式,所以邮件我们必须支持。
    • 那么就引发1个问题:
      • 邮件是不支持炫酷的HTML页面的(复杂的CSS样式支持),所以,想要偷懒嵌入一个页面发过去,不可以~
      • 业务繁多,有的希望有饼图,有的希望有时间序列图,有的希望有时间序列堆叠图,这些各式各样的需求很难高效满足
    • 于是乎,我们相出了如下方案:
      • 暂时不开发专门的数据图表系统(其实是有一个的,但是有一些缺陷,而且用户很少主动来门户系统查看数据,都依赖邮件)
      • 邮件发送一个HTML页面嵌入的截图
      • 关键在这个截图的生成上,答案就是,数据分析师使用Superset对各种业务配置Dashboard,后台使用Python定期截图,嵌入到HTML页面,这样,就可以发送一封样式美观大方的数据汇总邮件了
      • 遇到几个问题:
        • 发送时要强制刷新,可能会遇到查询超时问题,上面已经说了,如何解决
        • 截图可能会失败:增加重试机制,目前稳定性可以达到4个9
        • Windows的邮件客户端,对长图支持有限制,会导致图片变形
          • 好在大多数老板都Mac系统,忽略
          • 你配置Dashboard别搞那么长不就行了~

不足之处

  • 权限管理
    • 对于数据这种敏感的东西,实际使用过程中,肯定是各自看各自的数据,你并不希望别人看到你的数据
    • 目前的权限设置比较混乱,官方提供了一个复杂的权限控制,但是并不好用
  • 想快速复制一个图表?难,从SQL层面再走一遍吧

其他选项

最后

  • 目前superset迭代进度很快,建议定期跟进更新
  • 部分版本存在无法平滑更新的问题,比如最新的0.25.2版本,元数据增加了很多表,部分表的字段也做了调整,很难100%平滑升级
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • 感恩在最美好的日子遇到你们 所有的散场,挥手分别的时刻 总让我们热泪盈眶 ...
    HilaryHH阅读 488评论 0 0
  • 丑橘之丑,世人皆知! 第一次注意到这种水果,是刚来北方求学的时候。那天在超市购买水果,促销区堆着一种长相奇特的水果...
    断鹂阅读 1,736评论 102 81
  • 1.第一个项目用的是xib,一个页面包含3个部分【.h .m .xib】 2.第二个项目用的是storyboard...
    冰J冰阅读 1,114评论 0 3
  • 在上家公司,卷入职场政治,顶了个雷被离职,面试新公司,老总问我,为什么从上家公司出来?我说“人心险恶,明枪易躲,暗...
    明哥聊求职阅读 314评论 1 0