数据仓库:数据仓库技术选型及方案设计

1. 大数据技术生态

1.1. 大数据技术生态体系图

大数据技术生态体系.png

1.2. 数据流程图

未命名文件 (1).png

1.3. 大数据框架

  • Apache
    -- 使用最广泛的框架;
    -- 需要专业的运维人员;
    -- 组件兼容性需要仔细调研(Hive v2.3+);
  • CDH
    -- 收费较贵;

1.4. 服务器

  • 物理机
    -- 品牌:戴尔;
    -- 内存:128G
    -- 内核:20 核 物理 CPU,40 线程(一般 1 核 CPU 对应 2 线程);
    -- 机械硬盘:8T HDD 机械硬盘;
    -- 固态硬盘:2T SSD 固态硬盘;
    -- 价格: 4W 左右;
    -- 寿命: 5 年左右;
  • 云主机
    -- 阿里云、腾讯云,5W / 年;

需要根据 业务场景、集群规模 综合考虑。

1.5. 数据存储

  • MySQL
    -- 存储业务数据;
    -- 存储数据分析的结果数据;
  • HDFS
    -- 与 Hive 配套,存储海量数据;
  • HBase
    -- 存储快速查表数据;
  • Redis
    -- 缓存;
  • MongoDB
    -- 爬虫数据存储;

1.6. 数据采集传输:

  • 用户行为数据:
    -- Flume,读取日志文件;
    -- Kafka,削峰;
    -- Logstash,Flume 替代品,专门处理日志(ELK);
  • 业务数据:
    -- Sqoop,处理 MySQL;
    -- DataX,Sqoop 的替代品,阿里出品的处理 MySQL 的工具;

1.7. 数据计算


离线计算:处理非实时问题,比如用于统计日活、周活、月活等;

  • Hive(SQL)
    -- 基于 MapReduce,做数据查询;
  • Mahaout
    -- 数据挖掘;
  • Tez
    -- 基于内存,计算速度快;
  • Spark Core
    -- 基于内存,计算速度快,掉电很麻烦;
  • Spark Mlib
    -- 数据挖掘
  • Spark R
    -- 数据分析
  • Spark SQL
    -- 数据查询

实时计算:处理实时数据,比如天猫双十一实时数据计算;

  • Spark Streaming
    -- 准实时 计算,实际采用批处理;
  • Flink
    -- TODO
  • Storm
    -- 实时计算,正在被抛弃;

1.8. 数据查询

  • Presto
    -- 快速查询
    -- 支持 Redis、Kafka、MySQL
    -- 与 Apache 框架配合使用,安装包使用较方便;
  • Druid
    -- 实时处理、批处理、流处理
  • Impala
    -- Presto 替代品,速度快叫 Presto 速度更快,但是多数据源支持范围较 Presto 更窄;
    -- 与 CDH 框架配合,CDH 默认集成 Impala;
    -- Apache 安装 Impala 极为困难
  • Kylin
    -- 多维度数据处理;

1.9. 数据可视化

  • Echarts
    -- 百度开发的平台,需要 JavaScript 支持;
  • Superset
    --

1.10. 任务调度

  • Azkaban,
  • Oozie

1.11. 集群监控

  • Zabbix

1.12. 元数据管理

  • Atlas

1.13. 数据质量监控

  • Griffin
  • Shell
  • Python

1.14. 数据平台和配置

  • ZooKeeper

2. 技术选型考虑因素

  • 数据量大小 \ 集群规模
    -- 万级 \ 十万级:MySQL;
    -- 百万级 \ 千万级:;
    -- 亿级 \ 十亿级 \ 百亿级:HDFS;
  • 数据类型
    -- 数据库(结构化数据)
    -- 文件日志(半结构化数据)
    -- 视频、文本、图片文件等(非结构化数据)
  • 业务需求
    -- 用户行为数据:日志文件;
    -- 业务数据:MySQL;
  • 行业内经验
    -- 同行业(竞争对手)参考;
  • 技术成熟度
    -- 尽可能使用较稳定版本的技术;
  • 开发维护成本
    -- 开发难度 & 维护难度,需要作出长远规划、做好动态平衡;
  • 预算
    -- 费用预算应结合业务实际需求,不盲目求新求大;

3. 集群规模参考值

日数据量:

  • 日活 100万,每人 100 条日志,共计 100万 X 100 = 1 亿条;

日存储量:

  • 每条日志 1K 大小,每天:1亿条 / 1024 / 1024 = 100G;

半年不扩容:

  • 100G/天 X 180天 = 18T;

保存 3 副本:

  • 18 t x 3 = 54T;

预留 Buff:

  • 预留 20% ~ 30% Buff = 54T / 0.7 = 77T;

服务器需求

  • 8T * 10 台标准服务器(20核 / 128G / 8T HDD / 2T SSD);

注意:此方案未考虑 数仓分层 和 数据压缩

5. 服务器规划注意事项

  • ResourceManager 和 NameNode 不能放在同一台服务器;
  • ResourceManager 需要做高可用;
  • ZooKeeper,安装台数为 奇数,最少 3 台;
  • Kafka,与 ZooKeeper 安装在一起,Kafka 与 ZooKeeper 有大量的数据通信;
  • Flume,与 Kafka 安装在一起,Flume 采集完的数据需要快速写入 Kafka;
    -- 如果有专门的额日志服务器,一般单独部署 Flume 到日志服务器;
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容