Graphix-T5：用自然语言操作数据库

计算与语言 21/02/2024

三个要点
✔️ Graphix-T5 是一种文本到 SQL 的转换技术。
✔️ 在文本到 SQL 的转换任务中加入了一个特殊的图形感知层，从而提高了转换的性能。
✔️ GRAPHIX-T5 在跨域文本到 SQL 转换中的有效性已得到证实。

Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing
written by Jinyang Li, Binyuan Hui, Reynold Cheng, Bowen Qin, Chenhao Ma, Nan Huo, Fei Huang, Wenyu Du, Luo Si, Yongbin Li
(Submitted on 18 Jan 2023)
Comments: Accepted to AAAI 2023 main conference (oral)
Subjects: Computation and Language (cs.CL); Databases (cs.DB)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

SQL（结构化查询语言）是数据库管理系统（DBMS）中使用的一种标准查询（处理请求）语言，可用于检索、更新、删除和操作数据库中的信息。例如，它可用于从数据库中符合特定条件的表中检索数据或插入新数据。

T5（文本到文本转换器）则是一种用于自然语言处理的深度学习模型；T5 的设计适用于输入和输出均由文本表示的任务。具体来说，给定一个输入句子，经过训练后就能为其生成一个合适的输出句子；T5 通常在大型数据集上进行预训练，然后针对特定任务进行微调。

Graphix-T5 结合了这两个概念。换句话说，T5 用于自然语言到 SQL 的转换任务，并在其中加入了一个特殊的图形感知层，以提高转换性能。这样，在将自然语言问题转换为数据库查询时，就能生成更准确、更复杂的 SQL 语句。

导言

关系数据库是卫生、体育和娱乐等各个领域重要决策的工具，但其操作需要一种特定的编程语言，即 SQL。然而，掌握 SQL 语言非常困难，需要专业知识。因此，将自然语言转换为 SQL 的工具备受关注。本研究的目标是改进复杂信息的处理方式，以便在不同领域使用此类工具。本研究利用一个名为 T5 的特定模型来探讨如何实现这一目标。

上图说明了将文本转换为 SQL 有多么困难。例如，将 "女人 "一词与特定表中的一列联系起来是最理想的，但如果没有相关的规则和数据，模型就很难正确理解。不过，这个问题可以通过多步推理路径稍加解决。

GRAPHIX-T5

GRAPHIX-T5 首先使用一种名为 "转换器阻塞 "的机器学习技术来理解以人类语言书写的问题的含义。这种技术可以理解词语的上下文和含义，从而更准确地处理问题。

接下来，为了了解数据库的结构，我们使用了一种称为图注意网络的技术。这种技术将数据库中的表格和关系表示成图形，以便更详细地了解问题和数据库之间的关系。换句话说，GRAPHIX-T5 使用一种独特的方式来分别理解问题的含义和数据库的结构，并将二者融为一体，从而获得更好的结果。

该图说明了当问题中的单词与数据库中的条目不完全匹配时的问题。在(a)种情况下，建议在所有单词和数据库条目之间建立直接连接。在(b)种情况下，建议通过添加新的连接点，更有效地将单词与数据库条目联系起来。

安装

数据集和设置

本部分介绍了文本到 SQL 转换任务的数据集和设置。具体来说，使用了四种不同的测试环境和两种训练设置。每个环境涵盖不同的方面，旨在接近真实世界的场景。此外，精确匹配（生成的 SQL 与正确答案完全匹配的百分比）和执行准确性（预测的 SQL 是否有效的衡量标准）也用于评估，它们在评估模型性能方面发挥着重要作用。至于实现，则需要使用特定的库，通过特定的参数和训练设置来建立。最后，为了验证 GRAPHIX-T5 的有效性，我们在多个版本上进行了实验，并与其他领先的基准模型进行了比较。

性能

SPIDER 是一项评估文本到 SQL 转换任务的基准测试。SPIDER 是一项用于评估文本到 SQL 转换任务的基准测试。该测试评估的是为给定的自然语言问题生成 SQL 查询的能力。SPIDER 的设计旨在增加数据库查询生成的难度，并模拟不同的复杂程度和现实场景。此类基准测试被广泛用于客观评估自然语言处理模型的性能，其中 GRAPHIX-T5 和称为 PICARD 的受限解码模块、GRAPHIX-T5-3B 的测试结果最佳。

GRAPHIX-T5 配有名为 PICARD 的受限解码模块，即 GRAPHIX-T5-3B，结果最佳。GRAPHIX-T5 的性能也优于其他型号，在更困难的环境中也表现出很强的鲁棒性。

即使在数据量较小的情况下，GRAPHIX-T5 的性能也优于普通 T5，这充分显示了它的优势。

消融研究考察了 GRAPHIX-T5 特征的影响。这里的目的是了解 GRAPHIX-T5 的特定功能如何影响性能。此外，GRAPHIX-T5 的性能优于其他模型，其实用性不言而喻。

最后，案例研究表明，GRAPHIX-T5 能够在困难的情况下生成准确的 SQL，其性能优于普通 T5。

在 SPIDER 测试中对 GRAPHIX-T5 和 GNN-T5 模型的性能进行了比较。结果显示，GNN-T5 的性能非常低，原因是存在一个严重的问题：灾难性遗忘。

灾难性遗忘是指机器学习模型在训练过程中迅速遗忘所学信息的现象。这意味着模型在训练新数据时几乎无法利用之前的学习成果。具体来说，在 GNN-T5 的情况下，模型在前几千步中学习到的信息会迅速消失，随后的训练几乎无法利用以前的知识。这会大大降低模型的性能。

结论

跨域文本到 SQL 程序的基本原理是通过学习问题和数据库的信息来创建 SQL。首先，创建一个学习问题和数据库信息的部分，然后使用该信息预测 SQL。最近的研究提出了基于图的方法，用于模拟数据库和问题之间的关系，并改进 SQL 的预测。这些方法对于将文本转换为 SQL 的模型（如 T5）很有效，也有人尝试使用其他方法来提高性能；GRAPHIX-T5 可以通过添加图学习来解决更具挑战性的 SQL 生成问题。本文展示了 GRAPHIX-T5 在跨域文本到 SQL 转换中的有效性，同时提高了 T5 的能力。

在 GRAPHIX-T5 成功的基础上，未来的前景表明，在跨域文本到 SQL 的转换中，提高模型的可扩展性和灵活性、确保训练数据的多样性、提高可用性和便利性、正确处理误差和不确定性是非常重要的。希望通过解决这些问题，可以实现更实用、更有效的文本到 SQL 的转换。