关于湖仓一体,网上的介绍不少,渠道服务商也很多,但似乎鲜有能真正介绍明白原理和应用定位;与此同时,也经常有人问,你们一帮做 AI 的,怎么就做数据库了?只能尴尬笑笑,我们是做湖仓智能的。不管怎样,想来还是很有必要写一写,聊一聊,权当创业故事。
一、引子
大概几年前,我还在前司负责广告投放相关的算法落地,当时我们遇到一个很棘手的问题,就是第三方移动程序化广告里的实时机器学习问题,简单来讲,因为我们拿不到 App 里的user profile数据,我们唯一能利用的就是用户的稀疏行为数据,且由于移动广告业务的特点,我们必须实时 capture 用户的即时兴趣;用户上一分钟的行为,我们希望建模到下一分钟的模型里面,因为即便是同一个用户ID,不同时刻不同场景的用户实时心智也是不一样的,相应的广告推荐也是完全不同的,这对我们的技术挑战空前。
传统的方式是用户实时反馈数据落盘,数据 ETL,样本拼接,然后做模型的 Online Learning,线上 inference,整套体系下来最快也是是小时级的模型更新体系,这个最早在我们做手机淘宝的个性化推荐体系时是完全ok的,因为我们是在某个独角兽 App 里做 in-house 的推荐,可以简单的从实时召回层面去实现实时的个性化推荐,模型层面做到小时级更新已经是完全 ok 的,但现在不行。
然后我们开始调研,湖仓一体/流批一体大概就是从那个时候进入我们的视野,简单来讲,我们需要基于湖仓一体的体系,解决实时机器学习里的实时训练样本生成问题。这里面虽然flink能够解决实时计算的问题,但是flink没有存储,无法解决数据的回滚、容错,也没法支持新增特征的历史数据回溯合并。因此综合来讲,具备流批一体能力的湖仓一体框架才是最适合的。
之后我们调研了国际流行的开源框架:Hudi、Iceberg、Delta Lake 等,但发现原始的设计有种种问题,最典型的比如小文件的支持能力较差,而如果回到我们互联网应用,一次流式写入为一个小文件的话,数十亿甚至百亿以上的流式写入小文件是不可想象的。此外,还有大量其他问题,比如流批一体中单个样本流的实时更新的能力(Upsert)不足,以及多个样本流的多流并发写(Merge on Read)的并发能力不足,都会严重影响到实时机器学习样本的构造。彼时对于我们,这是一个近乎无解的问题。我们以下图粗略展示我们最初的 motivation:
上图是互联网搜广推时代,一个典型的样本构造示例,一般包含三大数据流体系:
A)用户特征:包括用户的基本属性,用户的历史行为和最近的实时行为等
B)物品特征:物品的各类属性,包括离散的属性和统计值连续属性等
C)用户交互反馈:算法模型中的标签(Label)
对于某个单个的数据流体系,会发生某个字段/实时兴趣的更新(删除、增加、变更),同时多个数据流,要进行多流合并,从而成为一条完整的训练样本实例,这里可以按主键自动扩展 Schema,做高效的 Merge on Read,而不用采用低效的 join 操作。
如果上述的小文件支持、Upsert、MOR等性能得到完美保证,问题似乎能到解决;但依然有非常棘手的问题,如果基于湖仓一体框架能高效形成一批实时训练样本,那又如何直接高效喂到下游的机器学习框架当中?换句话讲,湖仓一体的底座如何能无缝衔接AI框架的生态?毕竟,传统的湖仓一体框架都是java实现,都只能支持大数据生态!
所以敲黑板,我们最早接触并深入湖仓一体,是为了解决实时机器学习里的训练数据流体系,是不是很有趣。
二、AI Infra
回到整个 AI 的基础 infrastructure,其实主要包含三大块:离线训练体系,在线推理体系,衔接在离线的数据流体系;今天很多人都有一种错觉,以为 AI 的 Infra 主要是离线训练和在线推理两大块;之所以有这样的错觉,很大一个原因就是,今天很多的 AI 创业者,并没有完善的一线互联网应用的从业经历,其实从互联网应用落地的角度来讲,第三部分怎么构建完善的数据体系非常重要,也非常核心。
这个在前阵子贾扬清大神的一篇访谈文章里也表达过类似意思:“把应用当中所得到的数据,以一种回流的方式收集回来,训练下一波更好的模型。到今天这个方法论依然适用,就是在行业竞争中,谁能有数据,谁能够把用户的反馈更好地调试成“下一波训练的时候可以更好的应用”的数据,这也是核心竞争力之一。”
(https://mp.weixin.qq.com/s/zpIioK4oiXez0sQKgeCW0A)
所以,从这个角度来看,湖仓一体其实就是 AI 的基础核心 infrastructure 之一,至少在 AI 应用生态落地当中如此。
三、湖仓才是未来
数字化经济的核心是数据要素,围绕整个数据要素的统一管理和价值释放的pipeline,存在大数据和AI两个生态体系,首先我们从大数据技术架构的演进方向来看。
大数据架构经历了:传统数仓 —> 数据湖 —>数据湖仓的演变,具体如下图所示,其核心是:满足企业对快速增长的数据管理及多样化数据价值释放的诉求。
当然这里面存在难点,如流批架构的统一、元数据扩展性差等已知问题,这些都影响了湖仓一体的实际落地。那么,如果我们能顺利解决这些问题呢,那就会有如下的优势:
1)低成本:区别于搭建昂贵的数仓,数据湖提供海量存储和弹性计算,成本降低10倍,维护开销低
2)时效性高:摒弃传统的 T+1 跑数流程,报表分钟级更新,计算资源开销低
3)数据统一:以湖为中心构建统一的数据中台进行资产管理,统一取数,口径一致
4)多种数据应用支持:在湖上支持 BI 报表、大屏、AI 等多种数据应用,充分释放数据价值
接着,我们来到AI生态体系,除了前面最早提到的在实时机器学习体系,基于湖仓一体构建实时AI训练数据体系的诉求,横向的来到我们今天的大模型时代,让我们再看看情况如何。如果大模型应用的时代真的来临,那对数据层面又会有哪些要求:
1)大规模:海量异构数据,文本、图片、视频,结构化和非结构化类型数据
2)质量高:需要对海量数据进行大量的采集、清洗、标注等数据预处理工作
3)迭代快:需要数据-模型-数据快速反馈迭代
而上述一系列诉求,显然特别适合基于湖仓一体构建大模型的数据底座,原因包括两点:
1)湖仓能低成本且高效地支持海量异构数据的存储和管理
2)湖仓能支持大数据生态的数据预处理框架;
这里的**难点和挑战在于:
1)已有对接的大数据生态的数据预处理性能如何能进一步的提升,毕竟原始数据是存储在云原生的对象存储之上;
2)同时能一体化支持 AI 大模型的开源生态;
如果能做到这两点,那么湖仓一体就能成为大模型时代的数据底座,整体可以如下图示意:
四、LakeSoul 新一代的数智化底座
基于前面的介绍,相信大家已经大概了解,我们为什么要重新设计一个湖仓一体的框架,尽管在彼时,这算不上一个热门的方向,但我们坚信,如果解决好前面提到的几点,那 LakeSoul 就会成为新一代的大数据+智能的基础底座,意义不可谓不大。
我们首先看下 LakeSoul 的基础技术框架示意:
整体的设计思路就是:人无我有,人有我优。
1)人无我有:通过 Rust 原生语言实现的 NativeIO,统一封装 Java 和 Python 接口,大数据生态、AI 生态统一支持,实现一体化的数据底座;整体示例如下图:
通过这样的设计,我们就很容易实现一个大模型的使用案例:
详细内容可以参考我们之前的公众号文章:大模型时代,我们需要怎样的数据湖?
2)人有我优:前面提到已有湖仓框架在大数据生态的种种功能缺陷和挑战,基于此,LakeSoul 做了针对性的全新的架构和实现,主要优势包括:
A)不同于国际其他湖仓一体框架如 Hudi、Iceberg 等,LakeSoul 采用集中式的元数据服务层,能支撑超大规模的湖仓文件管理和更高的并发读写能力;
B)作为云原生湖仓框架,对云存储以及 HDFS 的读写性能是重中之重,LakeSoul 选择使用 Native Code (Rust 语言)重新实现 IO 层的读写逻辑,将全量、增量的读写逻辑都迁移到了新的 IO 层实现,使得在大数据和 AI 计算引擎中均可访问实时数据。同时 IO 层也做了大量性能优化,在湖仓框架中具有显著的性能优势;
C)LakeSoul 支持多流并发 Upsert、增量流式 CDC 读取等读写方式,并与 Spark、Flink 做了深度集成,从而更为完善地支持高效低延迟的流式增量数据建模;
D)支持多种数据库、消息队列的整库实时入湖、出湖,支持自动 Schema 演进,全局自动小文件合并服务、自动数据清理服务等,让 LakeSoul 具备优秀的生态连接能力和易用性。
这个环节,我们在之前的公众号文章里做了大量介绍,这里不在赘述,可以参考之前的若干文章链接:
LakeSoul 发布 2.2.0 版本,全面升级 Native IO,扩大云原生湖仓性能领先幅度
LakeSoul 国产湖仓框架新篇章:开源基金会孵化,国产信创认证,新版本重磅发布
五、回到数元灵
基于前面的介绍,再回到数元灵究竟是做什么的,相信大家清晰了很多。数元灵整体的定位就是:一站式湖仓智能,即湖仓一体的数智化底座 + 智能应用的生态体系。
我们基于新一代的数智化底座 LakeSoul,既提供了数字化时代下的数据中台底座,又给 AI 的生态应用提供了智能化的数据底座。回到智能应用的生态落地,数元灵有自研的AI应用生态框架 MetaSpore,目前已打造了完善的智能SaaS 产品,包括:
A)低代码个性化推荐
B)智能金融风控
C)智能文案生成引擎
D)BI Copliot
E)新一代智能客服
这些内容在我们之前的公众号文章里也都有过介绍,大家可以自行翻阅。
这样基于我们的 LakeSoul + MetaSpore,就形成了 1+N 的数智化产品生态。回到大的政策背景,就是:围绕数据要素的核心,AI 赋能,产业焕新。
想起创业总总,身边一直总有人问,你们对标的是国外哪家巨头,从最早觉得Databricks跟我们最像,到现在觉得这些都不重要,数元灵做自己就好。