1.数据仓库概念
(1)数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。
(2)通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等。
(3)数据仓库,并不是数据的最终目的地,而是为数据最终目的地做好准备。这些准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。
2.项目技术如何选型
(1)数据采集传输:Flume、Kafka、Sqoop、Logstash(ELK套件)、DataX(类似Sqoop)
(2)数据存储:Mysql、HDFS、HBase、Redis、MongoDB
(3)数据计算:Hive、Tez、Spark、Flink、Storm
(4)数据查询:Presto、Druid、Impala、Kylin
3.系统数据流程设计
4.框架版本选型
框架选型尽量不要选择最新的框架,选择最新框架半年前左右的稳定版。
(1)Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)
(2)CDH:国内使用最多的版本,但CM不开源,但其实对中小型公司使用来说没有影响(建议使用)
(3)HDP:开源,可以进行二次开发,但没有CDH稳定,国内使用较少。
5.服务器选型
(1)机器成本考虑:
物理机:以128G内存,20核物理CPU,40线程,8THDD(机械硬盘)和2TSSD硬盘(固态硬盘),戴尔品牌单台报价4W出头,需考虑托管服务费用。一般物理机寿命5年左右。
云主机:以阿里云为例,差不多相同配置,每年5W。
(2)运维成本考虑:
物理机:需要有专业的运维人员。
云主机:很多运维工作都由阿里云完成,运维相对较轻松。
6.集群资源规划设计
1)如何确认集群规模?(假设:每台服务器8T磁盘,128G内存)
(1)每天日活跃用户100万,每人一天平均100条:100万* 100条=10000万条
(2)每条日志1K左右,每天1亿条:100000000/1024/1024=约100G
(3)半年内不扩容服务器来算:100G* 180天=约18T
(4)保存3副本:18T* 3=54T
(5)预留20%~30%Buf=54/0.7=77T
(6)算到这:约8T* 10台服务器
2)如果考虑数仓分层?
服务器将近再扩容1-2倍
3)测试集群服务器规划