Text2SQL数据集和技术方案整理

2017年开源的一个大型文本到SQL数据集WikiSQL，数据来自维基百科，属于一个单一的领域，包含80654个自然语言问题和77840个SQL语句。SQL语句的形式相对简单，不包括排序、分组、子查询和其他复杂操作。

平凡的程序员

2512人浏览 · 2025-02-17 15:56:29

平凡的程序员 · 2025-02-17 15:56:29 发布

一. 业界榜单

二. 数据集

2.1 WikiSQL

2017年开源的一个大型文本到SQL数据集WikiSQL，数据来自维基百科，属于一个单一的领域，包含80654个自然语言问题和77840个SQL语句。SQL语句的形式相对简单，不包括排序、分组、子查询和其他复杂操作。

文章链接:

SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING

数据集:

WikiSQL github地址

2.2 Spider

2018年由耶鲁大学提出了具有多个数据库、多个表和单轮查询的文本到SQL数据集Spider。它也被公认为行业内最难的大规模跨领域评估列表。它包含10181个自然语言问题和5693个SQL语句。涉及138个不同领域的200多个数据库，难度等级分为：容易、中等、困难和极其困难。

文章链接:

Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

数据集:

Spider数据集

2.3 SParc

2019年由耶鲁大学提出了一个大型数据集SParC，用于复杂、跨域和上下文相关（多回合）的语义解析和文本到SQL任务，该数据集由4298个连贯的问题序列（12k+个独特的单个问题，由14名耶鲁学生注释的SQL查询注释）组成，这些问题是从用户与138个域的200个复杂数据库的交互中获得的。

文章链接:

SParC: Cross-Domain Semantic Parsing in Context

2.4 CSpider

2019年西湖大学提出了一个大型中文数据集CSpider，用于复杂和跨领域的语义解析和文本到SQL任务，由2名NLP研究人员和1名计算机科学学生从Spider翻译而来，该数据集包含10181个问题和5693个独特的复杂SQL查询，涉及200个数据库，多个表覆盖138个不同的领域。

文章链接:

A Pilot Study for Chinese SQL Semantic Parsing

数据集:

CSpider数据集

2.5 CoSQL

2019年，耶鲁大学和Salesforce Research提出了一个跨域数据库CoSQL，它由30k多个回合加上10k多个注释SQL查询组成，这些查询来自绿野仙踪（WOZ）收集的3k个对话，查询跨越138个域的200个复杂数据库。

文章链接:

CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases

数据集:

A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases

2.6 TableQA

2020年，追一科技提出了一个大规模的跨领域自然语言到SQL的中文数据集TableQA，包括64891个问题和20311个针对6000多个表的独特SQL查询。

文章链接:

TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation

数据集:

中文单表Text2SQL数据集

2.7 DuSQL

2020/11，百度为跨域文本到SQL任务提出了一个大规模实用的中文数据集DuSQL，包含200个数据库、813个表和23797个问题/SQL对。

文章链接:

DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset

数据集:

2.8 CHASE

2021年，华盛顿大学和微软研究院提出了KaggleDBQA，这是一个真实Web数据库的跨领域评估数据集，具有特定领域的数据类型、原始格式和不受限制的问题。它包括8个数据库中的272个示例，每个数据库平均有2.25个表。该数据集以其真实世界的数据源、自然的问题创作环境和具有丰富领域知识的数据库文档而闻名。关键统计数据：8.7%的WHERE子句、73.5%的VAL、24.6%的SELECT和6.8%的NON-SELECT。

文章链接:

KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers

数据集:

github: KaggleDBQA

2.9 BIRD-SQL

2023年，香港大学和阿里巴巴提出了一个大型跨域数据集BIRD，其中包含12751多个独特的问题-SQL对，95个大数据库，总大小为33.4GB。它还涵盖了37多个专业领域，如区块链、曲棍球、医疗保健和教育等。

文章链接:

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

数据集:

三、相关技术

3.1 MAC-SQL

文件链接:

MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL

代码链接:

流程图:

3.2 DBCopiLOT

论文链接：

DBCᴏᴘɪʟᴏᴛ: Scaling Natural Language Querying to Massive Databases

源码:

github：DBCopiLOT

流程图:

3.3 DAIL-SQL

论文链接:

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

源码:

github：DAIL_SQL

流程图:

3.4 RESDSQL

论文链接:

RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL

源码:

github: RESDSQL

流程图:

3.5 DAMO-ConvAI

论文链接:

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

源码:

github:bird-sql

流程图:

3.6 DIN-SQL

论文链接:

DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction

源码:

流程图:

3.7 ChatGPT's zero-shot Text-to-SQL

论文链接:

A comprehensive evaluation of ChatGPT’s zero-shot Text-to-SQL capability

源码:

流程图:

3.8 Binder

论文链接:

BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES

源码:

流程图:

3.9 SC-prompt

论文链接:

Few-shot Text-to-SQL Translation using Structure and Content Prompt Learning

源码:

github： SC-prompt

流程图:

3.10 T5-SR

论文链接:

T5-SR: A UNIFIED SEQ-TO-SEQ DECODING STRATEGY FOR SEMANTIC PARSING

源码:

无

流程图:

松山湖开发者村综合服务平台

助力广东及东莞地区开发者，代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展，成为松山湖开发者首选的工作与学习平台

更多推荐

cover

从云原生部署到智能时序分析：基于 Kubernetes 的 Apache IoTDB 集群实战与 TimechoDB 国产化增强特性深度解析

松山湖开发者村综合服务平台

cover

KReplay技术架构解析与电科金仓数据库的应用实战操作

松山湖开发者村综合服务平台

cover

TCP握手惊魂：发送SYN后宕机，服务器会原地爆炸吗

松山湖开发者村综合服务平台

所有评论(0)

查看更多评论

平凡的程序员

@TonyChacha635401873

已为社区贡献1条内容