随着大数据、云计算等技术的应用和普及,互联网环境下数据处理呈现出新的特征:业务变化快;数据来源多;系统耦合多;应用深度深。业务变化加快导致数据来源增多,以前的数据大多来自于应用系统数据库,基本为结构化数据,比如Oracle、MySQL等数据。现在的互联网环境下有了更多的数据,比如网站的点击日志、视频数据、语音数据,这些数据都需要通过统一的计算来反映企业的经营状况。在互联网环境下,系统耦合也相对比较多,最重要的是要注重如何在这样的环境下加深数据整合、提升应用深度。从应用深度上来说,之前更多专注于报表分析,在大数据环境下则更多地进行算法分析,通过建立数据模型去预测和研判未来趋势。所以在这种境况下,对于系统的需求也更高。
在高需求下,传统仓库必然面临着挑战:数据量增长过快导致运行效率下降;数据集成代价大;无法处理多样性的数据;数据挖掘等深度分析能力欠缺。自建集群,耗资上百万,并且还需要专业人员运维。
从2012年开始,阿里集团将之前在Hadoop上的数据体系搬迁到阿里云数加MaxCompute(原ODPS),并完成了数据体系的重构。MaxCompute能提供快速、完全托管的从GB到EB级数据仓库解决方案,可经济并高效的分析处理海量数据,高效的计算能力能够很好的支撑着强大的经济体。(《企业大数据平台下数仓建设思路》)
之后,阿里集团开始对外服务,开始研究数据智能化和帮助外部用户如何利用阿里的大数据平台实现大数据应用。
阿里正将MaxCompute这样的“核武器”快速推向全球市场,彻底改变了行业处理数据的方式。此前,大多采用自建Hadoop集群,耗资上百万,并且还需要专业人员运维。
而MaxCompute采取按量收费的模式,仅按照0.3元/GB按量付费,即开即用。根据大部分公司的数据量来测算,一般每月只需花费数百元。