一步即可!阿里云数据湖分析服务构建MySQL低成本分析方案

作为最为流行的开源数据库,MYSQL正成为越来越多企业的选择。MySQL数据库大量应用在各种业务系统,除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。但受限于MySQL架构等问题,在面对数据分析场景时,其往往力不从心。针对这种情况,业内有很多种解决方案。这里特推荐一种新的方式 — 数据湖分析,在面对低成本场景时是个不错的选择。在展开正式内容之前,对数据湖这个还较为陌生的概念做个简单介绍。数据湖,是一种Serverless化的交互式联邦查询服务。使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据。

方案背景

需求场景一

MySQL数据库大量应用在各种业务系统,除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。随着业务的发展,单机MySQL数据库达到一定的数据量后,直接使用MySQL做数据分析性能比较差,而且会影响在线业务的读写性能。这种情况下就需要寻求新的数据分析方案。

需求场景二

MySQL中的数据需要和日志数据做联合分析,这种场景下有些公司会使用开源的大数据系统(如Hive,Hadoop,Spark等)搭建数据仓库,这个方法虽然能解决问题,但它所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析?

需求场景三

当MySQL中数据量超过单机性能后,为了保证在线业务性能,DBA通常会采用分库分表技术,将一个数据库中的单张表数据拆分到多个数据库的多张表中。由于一个逻辑表被拆成多张表,这时候如果要进行数据分析,将会变得十分复杂。需要新的分析方案来解决。

方案评估因素

MySQL分析场景中,如果要解决上述三个场景问题,主要考虑的因素有哪些?如果有多种解决方案,应该如何选择?可以参考以下几个关键因素。

成本因素

这里谈到的成本,是个综合的概念,不单指经济成本,还包括时间、人力、风险成本等。用户做方案选择时,要考虑综合的“性价比”。

能力因素

能力维度包括两个方面,即功能和性能。功能上,方案是否提供了完备的分析能力及扩展能力。性能上,是否满足用户的对时效性、并行性的要求,特别是在海量规模下。

可维护性

好的产品,应该是提供良好的可维护性。用户可通过很简洁的方式使用它。当出现问题的时候,也可以很容易排查解决。

易用性

产品自身应具有良好的易用性。用户只需要很低的门槛即可使用到数据分析服务。

方案选择

针对MySQL数据的分析场景,有多种解决方案,包括直接在MySQL只读实例上分析、自建开源数据仓库和数据湖构建方案。下面让我们详细看看这些方案的优缺点。

基于MySQL只读实例分析

通过额外购买服务器搭建MySQL只读备库实例,然后基于只读实例做数据分析。这个方案的优缺点:

缺点:功能无法满足需求场景二和场景三,即使针对需求场景一,当数据量增大时(参考下文TPC-H 10G SQL耗时),基于只读实例的分析性能较弱。

优点:方案简单,能防止对在线业务产生影响;易用性、兼容性好。

自建开源数据仓库

使用开源大数据系统(如Hive,Hadoop,Spark等)搭建数据仓库,然后同步MySQL数据到数据仓库,再基于Spark或Hive进行数据分析。

缺点:易用性差:开源大数据系统使用门槛比较高,需要专门的大数据工程师来操作和运维;此外Sqoop同步不支持表结构变更,增加和删除列都会导致同步失败。成本最高:另外还需要额外购买服务器搭建系统,增加了硬件成本,这个方案整体成本最高。

优点:能解决需求场景一和二的问题,分析性能较好。

数据湖构建方案

基于阿里云数据湖分析构建方案,它能完美的解决低成本分析MySQL数据的需求。

优点:方便易用:使用一键建仓可以很轻松把整个数据库同步到数据湖。分析能力强:数据湖分析(Data Lake Analytics)与MySQL体验完全相同,数据量增加对分析性能几乎没有影响。成本极低:不需要购买服务器,按查询量计费,无查询不收费;无维护成本。对源库影响:数据分析对在线业务无影响。

数据湖构建方案评测数据及技术原理

接下来让我们详细看一下数据湖构建方案的评测数据和技术原理。

低成本高性能

低成本

下面是成本的对比,额外购买一台高性能RDS(MySQL数据库)包月费用需2344元;以TPC-H 10G为例,如果每天执行一次TPC-H的22条SQL,使用DLA一个月的费用只需要26.64元,平均每天不到1元。只需1%的成本就能获取高性能的分析;此外DLA的列式存储消耗只需要3G,而原生Mysql的存储可能消耗约20G。

高性能

数据湖构建把数据从源数据库同步后,使用列式+压缩的方式存储,以TPC-H 10G的数据为例,存储在MySQL将消耗大约20G存储,但使用列式+压缩方式存储只消耗约3G存储。使用阿里云数据湖分析(DLA)分析,能以极低的成本获得高效的分析,再次以TPC-H 10G的数据为例,TPC-H的22条SQL在DLA执行耗时平均为5.5s,在MySQL中平均耗时为345.5s,且有4条SQL跑不出来,下图TPC-H 10G 22条SQL在MySQL和DLA的耗时对比。

易用性

支持丰富数据源

阿里云数据湖分析构建方案,支持丰富的数据源,包括自建的MySQL、SQLServer、PostgreSQL、Oracle、云数据库RDS、PolarDB、ADB等。与传统的数据仓库相比,它的设计目标是"简单",让用户通过简单的配置就能实现数据同步到DLA,真正实现"一键"建仓。

自动同步保持数据一致

数据湖构建支持自动同步更新的数据,也能自动同步包括创建表,删除表,新增列、修改列、删除列等元数据操作。在分库分表的场景中,数据湖构建能把一张分布在多个数据库的逻辑表合并到一张表中,实现基于一张表做数据分析。此外数据湖构建支持同步的表数量无上限限制。

增量构建

数据湖分析(DLA)团队正在研发数据湖增量构建以支持增量模式同步源库数据,能完全消除对源库产生的影响;并且能大大提升数据分析的时效性。增量构建将于近期发布上线,敬请期待。

对源库影响

基于数据湖分析查询对源库完全无影响;在数据湖从源库同步数据时,对源库的影响也保证在10%以内。下图是数据湖构建针对不同规格源数据库的CPU消耗:随着机器规格增大,连接数会自动增加,最终源库的平均CPU消耗都在10%以内。

为了尽量减低同步对源数据库的影响,数据湖构建做了大量的优化。包括:

数据湖构建会自动根据源数据库的机器规格,动态调整连接数,能保证对源数据库的压力在10%以内。

在并发同步一张表时,优先选择索引列做切分,通过索引快速定位一段数据范围,减小同步对源数据库的影响。

数据湖构建默认选择业务低谷做数据同步,防止影响线上业务。

最终实现对源库的压力几乎可以忽略。如果用户希望加快同步速度,也可以手动增加连接数加快同步速度。

阿里云数据湖实践

如果你希望试用数据湖分析构建MySQL低成本分析,只需要以下步骤即可开通试用。(文档详见https://datalakeanalytics.console.aliyun.com/cn-hangzhou/solutions

1、登录Data Lake Analytics管理控制台。在页面左上角,选择DLA所在地域。

2、在左侧导航栏单击解决方案。在解决方案页面,单击一键建仓中的进入向导

3、根据页面提示,进行参数配置。

4、完成上述参数配置后,单击创建,就可以开始使用数据湖愉快的分析了。

如有错误或其它问题,欢迎小伙伴留言评论、指正。如有帮助,欢迎点赞+转发分享。

我是运维小明,微信公众号:九零后运维小明,一个爱折腾的IT技术老司机,欢迎关注我,我们一起学习,共同成长!!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,110评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,443评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,474评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,881评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,902评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,698评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,418评论 3 419
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,332评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,796评论 1 316
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,968评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,110评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,792评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,455评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,003评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,130评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,348评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,047评论 2 355

推荐阅读更多精彩内容

  • 渐变的面目拼图要我怎么拼? 我是疲乏了还是投降了? 不是不允许自己坠落, 我没有滴水不进的保护膜。 就是害怕变得面...
    闷热当乘凉阅读 4,246评论 0 13
  • 夜莺2517阅读 127,720评论 1 9
  • 版本:ios 1.2.1 亮点: 1.app角标可以实时更新天气温度或选择空气质量,建议处女座就不要选了,不然老想...
    我就是沉沉阅读 6,898评论 1 6
  • 我是一名过去式的高三狗,很可悲,在这三年里我没有恋爱,看着同龄的小伙伴们一对儿一对儿的,我的心不好受。怎么说呢,高...
    小娘纸阅读 3,388评论 4 7
  • 那一年,我选择了独立远行,火车带着我在前进的轨道上爬行了超过23个小时; 那一年,我走过泥泞的柏油路,在那个远离故...
    木芽阅读 1,637评论 4 5