数元灵科技荣登“千言数据集-语义解析”权威评测榜首,让湖仓智能触手可及

数元灵科技于近日在百度举办的 Text2SQL 权威评测榜“千言语义解析”中夺得冠军,其中 CSpider 数据集上达到了单项第一名,并且以总分 0.78383 成绩获得了总榜单第一。

千言语义解析”评测榜提供了来自业界和学界的NL2SQLDuSQL以及CSpider共三个权威数据集,既包含了领域广泛的真实业务数据,也包含了高级复杂的 SQL 查询语句,是中文 Text2SQL 领域的权威榜单。该榜单参考学术界惯例,采用Exact Match Score作为效果评估指标, 该指标能够全方位的衡量 select、where、group、order 等子句取列、取值的准确率以及 SQL 整体准确率,是较为客观的评价标准。

Text2SQL 技术旨在将用户输入的自然语言问题转成可进行数据库操作的SQL查询语句,实现通过自然语言完成与数据库的交互及获得数据库中的信息,是未来数据智能化中较为重要的一项技术。该领域属于人工智能中的自然语言理解方向(NLU/NLG),不仅具有很高的学术研究价值,而且可以帮助非技术用户通过自然语言与数据库进行交互,降低数据库使用门槛及提升数据库使用效率,同时具有很高的实用价值,在工业界受到了广泛关注。

立足于产业界、向先进技术出发

数元灵科技基于核心湖仓产品 LakeSoul 在广泛真实业务场景中的锤炼,自主研发打造了一套数据智能查询平台,让用户无须编写 SQL 即可对复杂业务场景中的数据进行查询、分析以及可视化,极大的提高了数据价值利用效率、真正让AI在真实数据湖仓产品中触手可及。

数元灵在本次千言语义解析评测中基于对问题和数据的观察,将问题建模为 Encoder-Decoder 形式,并进行了以下几点重要优化工作:

1. 领域预训练

考虑到 SQL 是一种编程语言,而常用的预训练模型往往基于自然语言训练得到的,为了支撑公司若干代码生成业务,我们在预训练语料中引入 Python/Java/SQL 等常见编程语言数据共同进行预训练,进而得到代码生成任务的基座预训练模型。由于基座模型已经在大规模 SQL 语言数据上完成学习,因而可帮助下游生成模型对 SQL 语法理解更深。

2. Schema Linking

自然语言查询数据库时,模型的输入包含自然语言查询语句以及数据库schema描述,这里的 schema 描述可以认为就是数据库中所有 table schema 按照某种格式序列化的字符串文本。考虑实际进行的自然语言查询往往仅跟部分table&column 有关系,冗余输入的其余 schema 信息往往会起到负向影响。因此我们基于 cross-encoder 语义预训练模型,训练了对查询问题和 schema 描述进行打分排序的 schema linking 模型,并将其作为 SQL 生成的前置模块,从而极大的缓解了冗余 schema 输入带来的问题。

3. 表关系显式建模

数据表 schema 描述中包含有表名、列名以及列类型等核心信息,但除此之外其实主键和外键信息对于生成 SQL 也是有帮助的,比如主键可以变于确定 id列、外键则便于多表 JOIN,基于此考虑尝试将主键和外键信息引入到 SQL 生成模型中显式建模。经实验观察,键信息的显式建模对于涉及到多表查询的情形,效果提升十分明显。

4. 多语言自适应

千言语义解析榜的 CSpider 数据集是中英数据(即问题中文,表信息英文),但其它两个数据集是全中文的,为了最大程度的利用数据集,同时也为了兼顾真实业务场景,我们考虑用一套模型来为不同场景生成 SQL,模型在推理时能够根据输入 schema 的语言进行自适应的 SQL 生成。经过实验,此举不仅对不同数据集之间有增益作用,而且一套模型也提高了迭代评测的效率。

5. 基于 SQL 语法解码

常规 decoder 语言模型生成自然语言,对生成内容的文法并没有太多要求。但由于我们这里的 decoder 生成内容是 SQL,需要符合 SQL 语法,但生成模型不管是基于 search 还是 sample 策略解码并不能够保证SQL语法的合法性。为此我们借鉴学术界提出的思路,从生成大量候选 SQL 中挑选语法正确的作为最终生成结果,这样 SQL 语法正确性就得到了保证。

除了上述提到的优化思路外,还有部分思路是基于我们在真实业务的洞察提出的,这里篇幅有限,不再详述。虽然从具体业务场景切入,但是发现其间沉淀的技术都是可复用的,同时也有了一些新的思考和发现,可进一步注入到我们的技术沉淀中。我们愈发认识到,自然语言转换 SQL 是一项充满挑战的任务,对学术界和产业界有巨大价值待发掘。

共建面向未来的智能湖仓产品

现代数字化经济当中,数据作为第五生产要素,具有极大的经济价值,如何高效便捷的去释放和挖掘数据价值,对于诸多中小企业来说困难重重。数元灵科技基于自国产唯一的湖仓框架LakeSoul,能快速搭建多源异构的实时数据中台,为企业完善管理好自身的数据资产。然后在此基础上,通过领先的AIGC技术积累,提供数智化的业务赋能。

数元灵科技基于真实客户业务的沉淀,研发了一套 Text2SQL 技术方案,支持私有化部署,保障客户的数据隐私安全,让 AI 走进湖仓、为用户提供更低的数据交互门槛,同时我们也在权威评测榜单上检验了自研技术的先进性。LakeSoul 通过结合 AIGC 的技术,将提供更智能人机接口能力,大大简化开发者和用户与数据库交互的方式。我们相信在不远的将来,数据价值将惠及每个人、每个企业,而不断降低触达数据价值的门槛就是我们的使命,让我们大家一起共建数据智能技术生态。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容