一. 业界榜单

二. 数据集

2.1 WikiSQL

2017年开源的一个大型文本到SQL数据集WikiSQL,数据来自维基百科,属于一个单一的领域,包含80654个自然语言问题和77840个SQL语句。SQL语句的形式相对简单,不包括排序、分组、子查询和其他复杂操作。

文章链接:

SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING

数据集:

WikiSQL github地址

2.2 Spider

2018年由耶鲁大学提出了具有多个数据库、多个表和单轮查询的文本到SQL数据集Spider。它也被公认为行业内最难的大规模跨领域评估列表。它包含10181个自然语言问题和5693个SQL语句。涉及138个不同领域的200多个数据库,难度等级分为:容易、中等、困难和极其困难。

文章链接:

Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

数据集:

Spider数据集

2.3 SParc

2019年由耶鲁大学提出了一个大型数据集SParC,用于复杂、跨域和上下文相关(多回合)的语义解析和文本到SQL任务,该数据集由4298个连贯的问题序列(12k+个独特的单个问题,由14名耶鲁学生注释的SQL查询注释)组成,这些问题是从用户与138个域的200个复杂数据库的交互中获得的。

文章链接:

SParC: Cross-Domain Semantic Parsing in Context

2.4 CSpider

2019年西湖大学提出了一个大型中文数据集CSpider,用于复杂和跨领域的语义解析和文本到SQL任务,由2名NLP研究人员和1名计算机科学学生从Spider翻译而来,该数据集包含10181个问题和5693个独特的复杂SQL查询,涉及200个数据库,多个表覆盖138个不同的领域。

文章链接:

A Pilot Study for Chinese SQL Semantic Parsing

数据集:

CSpider数据集

2.5 CoSQL

2019年,耶鲁大学和Salesforce Research提出了一个跨域数据库CoSQL,它由30k多个回合加上10k多个注释SQL查询组成,这些查询来自绿野仙踪(WOZ)收集的3k个对话,查询跨越138个域的200个复杂数据库。

文章链接:

CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases


数据集:

A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases

2.6 TableQA

2020年,追一科技提出了一个大规模的跨领域自然语言到SQL的中文数据集TableQA,包括64891个问题和20311个针对6000多个表的独特SQL查询。

文章链接:

TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation

数据集:

中文单表Text2SQL数据集

2.7 DuSQL

2020/11,百度为跨域文本到SQL任务提出了一个大规模实用的中文数据集DuSQL,包含200个数据库、813个表和23797个问题/SQL对。

文章链接:

DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset

数据集:

DuSQL数据集

2.8 CHASE

2021年,华盛顿大学和微软研究院提出了KaggleDBQA,这是一个真实Web数据库的跨领域评估数据集,具有特定领域的数据类型、原始格式和不受限制的问题。它包括8个数据库中的272个示例,每个数据库平均有2.25个表。该数据集以其真实世界的数据源、自然的问题创作环境和具有丰富领域知识的数据库文档而闻名。关键统计数据:8.7%的WHERE子句、73.5%的VAL、24.6%的SELECT和6.8%的NON-SELECT。

文章链接:

KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers

数据集:

github: KaggleDBQA

2.9 BIRD-SQL

2023年,香港大学和阿里巴巴提出了一个大型跨域数据集BIRD,其中包含12751多个独特的问题-SQL对,95个大数据库,总大小为33.4GB。它还涵盖了37多个专业领域,如区块链、曲棍球、医疗保健和教育等。

文章链接:

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

数据集:

BIRD-bench

三、相关技术

3.1 MAC-SQL

文件链接:

MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL

代码链接:

MAC-SQL:github

流程图:

3.2 DBCopiLOT

论文链接:

DBCᴏᴘɪʟᴏᴛ: Scaling Natural Language Querying to Massive Databases

源码:

github:DBCopiLOT

流程图:

3.3 DAIL-SQL

论文链接:

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

源码:

github:DAIL_SQL

流程图:

3.4 RESDSQL

论文链接:

RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL

源码:

github: RESDSQL

流程图:

3.5 DAMO-ConvAI

论文链接:

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

源码:

github:bird-sql

流程图:

3.6 DIN-SQL

论文链接:

DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction

源码:

github DIN-SQL

流程图:

3.7 ChatGPT's zero-shot Text-to-SQL

论文链接:

A comprehensive evaluation of ChatGPT’s zero-shot Text-to-SQL capability

源码:

chatgpt-sql

流程图:

3.8 Binder

论文链接:

BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES

源码:

github: Binder

流程图:

3.9 SC-prompt

论文链接:

Few-shot Text-to-SQL Translation using Structure and Content Prompt Learning

源码:

github: SC-prompt

流程图:

3.10 T5-SR

论文链接:

T5-SR: A UNIFIED SEQ-TO-SEQ DECODING STRATEGY FOR SEMANTIC PARSING

源码:

流程图:

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐