海量数据多维分析我这里指的是通过数据库,然后通过某种专业olap工具(例如cognos等)进行灵活查询的行为,这种查询具有以下特定:
1、行为不可控,在模型范围内随意查询,大表与大表关联,多表关联等等,各种查询行为都有。
2、数据量巨大,大表都有1个T以上的数据。
按我们这么多年的工作实践,海量数据的olap要想达到快速查询其实是非常难的事情,主要难在:
1、查询行为不固定,即使你再努力调优,发现你只能解决一个场景,不能解决所有场景。例如机构,你按照某个字段“机构”进行分区了,命中后提升了查询效率,但是我们有好几个机构,开户机构、管理机构、交易机构,导致了你根本无法对这个模型全面优化
2、专业olap工具我们使用并不是很理想,我们曾经尝试过cube或者麒麟等产品,但是因为需求不会一成不变,一旦需求变更整个模型就要从新加载数据;维度多,多到产品都无法支持,即使能够支持cube也会膨胀非常厉害,所以我们最终还是放弃了。
现在,我们主要基于数据库+BI工具的方式,因为这样数据加载、修数、模型变更等非常灵活,但是这样一来就会把所有压力传导给数据库,也就是你的bi效率快慢完全取决于数据库的快慢。下面我说一下几个产品的比较:
1、oracle数据库,它的性能调优主要通过主键、分区、索引等解决,所以对于千万级别数据量简单查询还可以,但是对于动辄大几千万、亿以上的多表关联,一旦没有命中索引,cpu马上就会告警。前面已经说过,灵活查询根本无法预知查询行为。所以不命中是大概率事件。
2、mpp数据库(例如GP),由于实现了分布式,会自动重分布,不用建索引也能实现高效查询,所以对于海量数据查询我们目前使用的方案基本都是采用gp。但是同时也带来一些问题,查询性能不高,分钟级以上是经常发生,并发不大。
3、hadoop+spark的方式,底层可以提供HIVE、hbase等数据库,大宽表查询我们可以直接指向hbase,我感觉灵活性比gp数据库好。虽然有索引,但是经测试基本没有任何效率的提升。使用这种方式,最好能够强制命中分区键(例如日期),命中的情况下效率非常好。
4、Spark+ignite,这是我目前认为最好解决海量数据高性能计算、查询的最好方案:
Ignite是一个分布式的内存数据库、缓存和处理平台,为事务型、分析型和流式负载而设计,在保证扩展性的前提下提供了内存级的性能。
Spark是一个流式数据和计算引擎,通常从HDFS或者其他存储中获取数据,一直以来,他都倾向于OLAP型业务,并且聚焦于MapReduce类型负载。
整合这两种技术会为Spark用户带来若干明显的好处:
通过避免大量的数据移动,获得真正可扩展的内存级性能;
提高RDD、DataFrame和SQL的性能;
在Spark作业之间更方便地共享状态和数据。
下图中显示了如何整合这两种技术,并且标注了显著的优势:
经测试,我们对某个场景进行查询1天数据只用3秒、明显高于hadoop好几倍。查询一个月数据,只要4秒,说明在大数据量情况下依然能够保持良好的查询效率。
Ignite有索引,经测试,加索引以后效率快很多
Ignite既可以用内存,也可以用ssd盘,所以在一定数据量情况下是能够保证效率。他本身就是一个数据库,也可以把一些内容持久化到硬盘。并且是多备份的,保证数据不丢失。但是我并不建议把它完全当硬盘数据库使用,取其优势就可以了。
但是他的弊端也是非常明显的,就是完全依赖内存或SSD盘的大小,我们发现其实只有20%的应用承载了80%的访问量,所以我们大不不必把所有应用采用这种方案,只把访问量大放到ignite就可以了。其他低频的依然在hadoop或者mpp数据库,采用传统数据库和这个方案相结合。
新技术层出不穷,特别是现在基于hadoop也有很多实现方案,如果我发现好东西再告诉大家