摘要:
随着数据使用的不断深入,业务分析的不断完善,越来越多的数据需求开始爆发出来,传统的数据仓库已无法满足大数据量下的快速查询与分析响应。如何减轻IT人员的数据处理工作,提高大数据分析的响应时间与工作效率,甚至让用户可以自助分析数据,成为了该券商一个急需重点关注的问题。通过搭建大数据平台来存储与处理日益增长的交易数据,日志数据,并结合KAP构建多维分析模型,以满足企业在超大规模数据集上获得极速洞察的能力。
1. 公司及产品简介
上海跬智信息技术有限公司(以下简称Kyligence)由Apache Kylin(第一个来自中国的Apache软件基金会顶级开源项目)核心团队成员组建而成。作为领先的智能大数据分析平台及解决方案供应商,Kyligence专注于大数据分析领域创新,致力于进一步推动Apache Kylin开源项目的发展和演进,拓展全球用户社区;提供基于Apache Kylin的下一代企业级数据仓库及商务智能大数据分析平台Kyligence Analytics Platform (以下简称KAP)。从私有部署到云计算平台,KAP都能使用户在超大规模数据集上获得极速的交互式分析能力和洞察能力。
Apache Kylin是Hadoop生态的重要成员,是首个完全由中国团队贡献和主导的Apache软件基金会顶级开源项目。开源两年来,Apache Kylin已经被国内外超过200家公司所使用,包括eBay、Yahoo、Expedia、百度、网易、京东、美团、唯品会等国内外大型互联网公司,以及电信、金融、高端制造等传统行业的领先企业。Kylin广泛应用于大数据分析平台、OLAP多维分析、数据服务平台、自助查询平台等多种大数据分析场景中。
Kyligence推出的大数据智能分析平台KAP,是基于Apache Kylin的,在超大数据集上提供亚秒级分析能力的企业级大数据分析产品,定位于为业务用户、分析师及工程师提供简便、快捷的大数据分析工具和产品。在继承Apache Kylin的超高性能、免编程开发、多协议支持、非侵入式部署等突出优点的同时,KAP在企业用户所关注的应用场景丰富、实施效率、安全可控、存储效率、性能优化、自助式敏捷BI、系统监控等方面进行了全方位的完善和创新,被誉为目前最为成熟的OLAP on Hadoop产品。
2. 背景概述
我国证券交易以互联网为主,随着非现场开户等政策出台以及移动终端的普及,证券移动互联网化发展迅猛,已经成为各券商的主要发力方向。行业佣金率的不断降低和一人一户制度的取消,更是使得互联网证券业务成为各券商开源节流、聚焦投资用户、服务长尾用户的有力手段和创新方向。
深度的用户洞察和良好的用户体验是互联网证券的核心竞争力。券商业务属性天然适应大数据概念,与其他产业相比,证券业的产品、服务与流程都能体现出充分的虚拟化特征,这一点与互联网的基因完全适应。多年积累形成了丰厚的数据资产,但在大数据场景下,需要进一步提升在数据处理、数据分析及数据挖掘等能力,充分利用海量用户行为数据,进一步提升核心竞争力。
本案例中的券商是国内最大综合类证券公司之一,注册资本60亿元以上,经营业绩稳居业内前三,经营管理、风险控制、合规体系、信息技术等水平领先,是国内最早开展各类创新业务的券商之一。凭借全方位的业务创新、服务创新和管理创新,成就了一系列市场第一。
伴随着大量线上交易操作的完成,该证券企业的业务系统已经积累了丰富的后台数据和信息。如何了解客户的交易习惯,掌握理财产品的销售状况,以及完善客户画像,识别潜在客户成为了证券行业急切依赖大数据去解决和发现的问题。充分利用好这些数据,将对业务的改进和市场扩展带来极其重大的价值。
3. 案例概况
该券商大数据平台的建设在企业内部一直是不断地规划与完善当中。从2014年至今,该证券行业标杆企业已相继完成了Hadoop基础平台搭建、数据接入与存储等工作,并定义出了经营分析、数据服务、战略决策等几个大的主题领域。然而,随着数据使用的不断深入,业务分析的不断完善,越来越多的数据需求开始爆发出来,如何减轻IT人员的数据处理工作,提高大数据平台的分析效率,甚至让用户可以自助分析数据成为了一个急需重点关注的问题。
在使用KAP之前,企业的大部分数据都存储在传统的数据仓库之上,Hadoop平台也存储了部分数据,但是由于缺少适合的分析工具,平台之上的实际应用相对较少。随着数据量越来越多,在传统的数仓中查询分析响应速度越来越慢,且不易于扩展。特别是针对非重复计数等指标的实时计算需求,在大数据量的记录上更是无法满足。
3.1 项目目标
本期建设的营销业务多维分析,通过使用大数据分析平台,将超大规模数据集上的多维分析能力开放给分析人员,从集中式、专家式数据分析演进到分布式、全民数据分析模式,人人成为数据分析师,以满足企业在大数据场景下的超大数据量、多维度、高安全隔离条件下的分析能力。
本项目将充分发挥分布式大数据系统的优势,在存储海量数据的同时提供极速的查询和分析能力,通过数据模型进一步支撑不同的业务分析需求,提高企业信息系统部门的分析决策能力,从而加速企业在大数据应用场景的竞争力。
3.2 系统架构
KAP作为OLAP on Hadoop的大数据分析引擎,通过将其搭建在企业已有的大数据平台之上,成为Hadoop底层数据与用户前端查询之间的桥梁,能够很好地减轻IT人员数据准备的工作,提升平台查询性能,并满足业务人员自助分析的需求。
由于该企业的大部分数据分析工作一直还是基于传统的MPP数据仓库之上,一时难以全部迁移或替代。在IT演变与进阶的过程中,既需要考虑不影响已有的传统数仓成熟应用,又要不阻碍大数据平台的建设步伐与发展,因此在第一阶段采取了数据融合的架构进行该分析平台的设计与搭建。
传统数仓的数据继续遵循原有的流程进行处理与存储,之后通过定时增量导出成文件的形式,进行快速地批量加载到Hadoop平台的Hive之上,以解决传统数仓针对大数据分析能力不足的问题。
同时对于新产生的其它数据,如APP埋点日志等,又可以将文件进行简单处理之后直接加载到Hadoop之上,并在Hive中通过创建外表进行关联与访问,可便于后续在大数据平台上直接分析应用。
将KAP作为Hadoop之上的数据仓库层,通过访问Hive,对数据进行自动化聚合与预计算处理,并提供对主流BI前端工具的直接访问入口(支持ODBC, JDBC),方便最终用户对数据进行实时查询与分析,并极大减轻了IT人员对Hadoop中各层聚合表的开发与管理工作。
同时,为了保证系统的高可用性和查询高并发需求,在集群中部署2台KAP查询节点,并进行负载均衡配置。
3.3 应用场景
此项目在平台上已完成了多个面向用户和营销分析的Cube构建和应用,包含潜在客户分析、理财产品交易分析、客户特征分析等业务主题。采用增量构建的方式来接入每天新增的交易业务数据,并进行自动合并,所有的Cube构建过程在1小时内全部完成。其中最大的一个Cube包含30亿以上的总记录数,以及60多个维度,整个Cube的容量为20T左右,通过一定地聚合优化设置,平均查询响应时间低于3s。
业务人员通过使用前端BI工具KyAnalyzer或Tableau与KAP连接,可以直接访问Cube中的数据,自助快速地完成业务报表的创建与分享,极大地提高了工作效率,并减轻了IT人员对数据处理的繁重工作。另外,在安全方面,由于各营业部的信息需要互相隔离,同时对于不同业务范围的用户也需要进行严格的权限控制。KAP的可配置权限管理功能能够很好地在Cube级别,以及单一Cube内实现数据行、列级别的权限控制,充分满足了企业对数据管控的需求,以保证证券数据的高度安全性。
3.4 后续计划
通过本次项目的实施,业务分析人员已开始体验到大数据平台上前所未有的数据分析时效与便捷性,并已开始规划下一阶段的新业务Cube需求。
另外,针对部分实时性要求较高的数据,KAP支持从Kafka中进行流式数据的直接读取,并完成数据的分钟级处理与更新。后续会将部分实时数据接入大数据平台,并通过KAP进行流数据的预计算构建,以满足业务人员对时效性更高的数据获取与分析需求。
4. 项目价值
最初,企业在给业务用户提供分析报表的时候,会根据报表的具体内容,通过IT人员开发部分宽表或汇总表来满足特定的查询需求,以此来提高大数据量下的查询响应要求。由于业务需求不断地变化,因此需要IT人员频繁调整和重复开发,另外随着需求的增多,需要管理和维护的聚合表,汇总表也越来越多,大大增加了平台复杂度与元数据管理的成本。
通过使用KAP来搭建企业的大数据平台数据仓库层,IT部门能够通过可视化的界面来更方便地开发与管理Cube模型,并根据业务分析主题来设置维度与度量属性,每一个Cube都可以满足用户在同一分析主题下对各种维度进行任意组合的多种报表需求,极大简化了后台针对各种特定需求而二次开发的方式。同时,用户仅通过拖放的操作便可以快速开发出自己需要的报表,不再需要通过IT人员反复修改代码。大大缩短了数据到用户的应用过程,并降低了业务人员在大数据平台上使用数据的门槛,使最终用户可以直接面对授权内的数据进行自助探索与分析。
同时,数据分析在大数据平台上的响应效率也得到了极大的改善,对于百亿条基础数据的分析需求,90%的查询能通过KAP在3秒内返回结果,其中包括对千万数量级记录的非重复计数,比在HIVE上直接查询快百倍。
“KAP通过提供SQL的数据访问方式,可以很方便地作为查询引擎来使用,并给下游和前端提供数据。同时与大数据的平台框架具有良好的兼容性,不需要调整当前平台上的工作流程,完整的可扩展性满足了企业大数据平台的建设规划。”
——信息技术部 大数据平台总监