UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL

简介

    Text2SQL(也称为NL2SQL)是一项将用户的自然语句转为可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义。Text2SQL的本质,是将用户的自然语言语句转化为计算机可以理解并执行的规范语义表示 (formal meaning representation),是语义分析 (Semantic Parsing) 领域的一个子任务。

    目前比较火的英文数据集有WikiSQL、Spider、CoSQL、SParc、WikiTableQuestions、ATIS等,中文数据集有TableQA(即下图NL2SQL)、DuSQL、Chase等。


image.png

    在WikiSQL这个任务上目前主流的方法分为2种,一种是seq-to-seq序列的模型,这些模型直接生成最终SQL的语句,这方面比较出名的模型有:SEQ2SQL、Coarse2Fine、MQAN、NC-SQL、SeqGenSQL、Bridging、SeaD;另外一种是基于sketch-based的方法,把预测部门拆分成几个部分,每个模型只预测SQL语句的一部分,这方面比较出名的模型有:SQLNet、TypeSQL、SQLova、X-SQL、F-SQL、HydraNet、IE-SQL、SDSQL。

    目前在WikiSQL数据集上主流的方法是使用sketch-based系列的模型,但近期的研究表明,seq-to-seq序列的模型经过合理的设计,也一样可以取得很好的效果。在EG和不加EG的情况下取得最好的模型分别是sketch-based的模型(SDSQL、F-SQL)和seq2seq模型(SeaD)。

    这篇文章主要是介绍哈工大和微软亚洲研究院在2022年3月15号新发布的论文《UniSAr: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL》,论文地址为:https://arxiv.org/abs/2203.07781。这篇文章提出了一种不同与上面的方法,该模型属于Autoregressive Language Model,模型以Fairseq作为框架,在7个著名的数据集上(Multi-Domain:WikiSQL和TableQA;Multi-Table:Spider和DuSQL;Multi-Turn:CoSQL、SParc、Chase)都取得了一样甚至是更好的成绩。

摘要

    现有的 text-to-SQL 语义解析器是为特定设置而设计的,例如处理多表、 多领域或多轮的查询,这使得它们在应用于不同设置时效果会差很多。本文提出了统一结构感知自回归语言模型 UNISAR (Unified Structure-Aware Autoregressive Language Model) ,该模型直接采用现成的语言模型体系结构,在不同的环境下表现出一致的高性能。
    该模型在七个众所周知的涵盖多领域、多表和多轮的text-to-sql 数据集上,UNISAR与各个任务下专门设计的最先进的text-to-sql 模型相比,取得了一样甚至是更好的结果。重要的是,UNISAR是非侵入性的(non-invasive),因此在text-to-sql 任务下取得领先的核心模型也可以采用该模型的扩展,以进一步提高性能。
    具体来说,UNISAR 扩展了现有的自回归语言模型,加入了三个non-invasive扩展,使其具有结构感知能力:
     ○ Structure mark:编码数据库的schema、输入文本及这两者之间的关系;
     ○ Constrained decoding:在给定数据库schema的情况下,解码出结构良好的 SQL语句;
     ○ SQL completion:通过该机制来完成基于数据库模式的 SQL 中可能缺失的 JOIN 关系。

模型框架:

  • 采用预训练的自回归语言模型作为 UNISAR 的基础框架;
  • 使用BART进行编码,这是一个广泛使用的预先训练的encoder-decoder模型,遵循标准的从序列到序列的 Transformer 体系结构,它是通过有杂质的句子预先训练的,之所以没有使用 T5,是因为初步试验表明它具有良好的复用能力。(其中英文文本使用BART-Large模型、中文使用mBARF-CC25模型);

Structure Mark

1.schema property:扩展schema的语义信息;

  • The internal schema information:数据库schema的信息, 比如:primary key(主键)或者column type (INT, STRING or DATE),比如下图中,表Ranking中有字段名称有Play_id,它是Primary-key,数据格式是Integer,所以在这个字段前面加上Primary-key & Integer;
  • The name-based linking information:问题和schema直接的关系,作为schema linking的先验信息,比如:匹配schema和问题文本,如果能精确匹配到则加前缀exact,不能完全匹配则加partial,否则就不加。比如下图中,有一张表就叫players,而问题中也能完整匹配到players,所以players前面加Exact-Match;而表Ranking中有字段名称有Play_id,但问题中只出现了players没有出现play_id,所以是部分匹配到,在前面加Partial-Match,
  • The value-based linking information:通过数据库文本信息增强column representation。首先先规划化数据的表达形式(比如:统一日期的格式),然后再和问题中的文本进行匹配。

2.database structure :聚合schema neighbors的信息;

  • The affiliation relations(附属关系):表格和字段直接的关系 (e.g., ID of MATCHES),这个可以直接根据表格的属性获取;
  • The foreign key relations between columns (和变量相关的外键):(e.g., WINNERID links to PLAYERID),假设The tables relations已经包含了这项关系,所以这里只考虑The tables relations;
    【补充知识】主键(Primary Keys)是表中的一列,用作每一行的唯一标识符;外键(Foreign Keys)将一个表中的数据链接到另一个表中的数据。表中的外键列指向另一个表中具有唯一值的列(通常是主键列),以创建交叉引用两个表的方式。
  • The tables relations(表关系):表格直接的关系 (e.g., MATCHES links to RANKING),通过模板‘schema1 links to schema2’ 来生成(问题:怎么批量判断两个表有没有关系)。

3.discourse structure:从历史提问中补充文本信息

  • 在输入中加入了之前的 SQL 语句,从实体和意图两个方面改进了语篇的建模。

Constrained Decoding

  • BART 已经熟练掌握了 SQL 语法,然而它有时会在schema预测方面遇到困难。例如,BART 可能会输出 NATION 而不是 CITIZENSHIP。这里通过构造数据库schema的前缀树来解决这个问题,在beam search期间过滤掉不正确的token(问题:怎么批量构造前缀树)。
  • 注意,UNISAR 和基于语法的解析器之间的区别在于,UNISAR不需要指定具体的语法。

SQL Completion

    在研究中,作者发现生成的 SQL 语句经常会遗漏 JOIN 组件,因为它们通常在自然语言问题中没有被明确提及。为了使 SQL 完整,需要根据数据库模式找回可能丢失的 JOIN 组件;
     具体地说,作者首先构造一个模式图,其中节点是表或列,边是schema关系。然后尝试在一个不完整的 SQL 中找到位于现有表和列的最短路径中的表和列;
    以下图为例,这是一个不完整的 SQL,在 FROM 子句中没有提到表 MATCHES 和列 WINNER _ id。我们根据它们的邻居: PLAYERS 和 RANKING 来推断这两个信息。因为MATCHES 位于这两个表连接的路径上,而 WINNER _ id 是 MATCHES 的主键,通过这种方式可以补充完整的SQL语句。


image.png

模型实验

  1. 模型在7个不同的数据上进行了实验:
  • Multi-Domain:WikiSQL和TableQA(通过指标logic form accuracy (LX) and execution accuracy (EX) 来评估)
  • Multi-Table:Spider和DuSQL(通过指标exact set match accuracy (EM) 来评估)
  • Multi-Turn:CoSQL、SParc、Chase(通过指标question match accuracy (QM) and interaction match accuracy (IM)来评估)
  1. 7个不同的数据上的模型baseline:
  • Multi-Domain:SQLNet 、 SQLova、 Coarse2Fine 、 X-SQL 、 F-SQL 、 Bridge 、 SeaD
  • Multi-Table:RYANSQL、 IRNet、 RAT-SQL、 IRNetExt
  • MultiTurn:EditSQL、 IGSQL、 RAT-SQL-con

实验结果

  • 模型使用Fairseq框架进行数据清洗、训练和推理;使用了4张V100-16G GPUs显卡,训练了10个小时;
  • 在 WikiSQL(不加EG)、TableQA、Spider、DuSQL、SParc、CoSQL、Chase这7个数据集上都取得了最好的结果,见下表:


    image.png
image.png
image.png

本文贡献:

  • 提出了一个统一的解析框架,可用于包括多领域、多表和多轮对话场景下的各种text-to-sql 的任务,而不依赖于特定的体系结构设计;
  • 通过简单地合并三个non-invasive扩展(structure mark, constrained decoding and SQL completion)使自回归语言模型具有结构感知性;
  • 在7个text-to-sql 数据集进行了实验,实现了整体的改进,证明了统一解析器 UNISAR 与专门设计的其他模型相比更有效。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容