基于阿里云的税务大数据架构图.png
- 数据源包括原始发票数据,企业注册数据,开票助手数据,各种log数据,爬虫数据等;
- 原始数据层:使用阿里云RDS,DRDS为主,MongoDB,HBase,Kafka为辅助的原始数据存储,其中 RDS 存储原始的发票信息(每日3千万+条),Kafka、HBase用于实时、准实时计算
- 数据仓库层:使用阿里云 MaxCompute,利用 DataWorks 可以方便的定制数据ETL任务,建立各种数据维度表,并创建面向主题的数据集市;
- 计算层:分为离线计算和实时计算以及模型计算,离线计算使用hive SQL ,实时计算使用 Spark Streaming 和 Elasticsearch ,其中 Elasticsearch 在阿里云上可以方便的购买使用,模型计算使用阿里云的虚拟机,安装 Weka 、Knime 进行;
- 中间数据层:主要存储各种中间数据,统计表,数据维度表等
- 展示应用层:搭建各种应用系统展示报表数据,我们主要使用 Granfana 可以快速展示各种数据,非常方便。
整体优缺点
优点: 基于阿里云上的各种组件,能够快速实现对大数据的实时、离线的各种操作应用,扩容性好,服务稳定;我们对比过自己使用10台机器搭建 Elasticsearch 服务和阿里云上直接购买 ES 服务,完全不是一个等级的体验,自己搭建的服务扩容性差、服务不稳定,不定时需要重启服务;
缺点: 整体下来价格稍贵 ~