
Text2SQL数据集和技术方案整理
2017年开源的一个大型文本到SQL数据集WikiSQL,数据来自维基百科,属于一个单一的领域,包含80654个自然语言问题和77840个SQL语句。SQL语句的形式相对简单,不包括排序、分组、子查询和其他复杂操作。
一. 业界榜单
二. 数据集
2.1 WikiSQL
2017年开源的一个大型文本到SQL数据集WikiSQL,数据来自维基百科,属于一个单一的领域,包含80654个自然语言问题和77840个SQL语句。SQL语句的形式相对简单,不包括排序、分组、子查询和其他复杂操作。
文章链接:
SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING
数据集:
2.2 Spider
2018年由耶鲁大学提出了具有多个数据库、多个表和单轮查询的文本到SQL数据集Spider。它也被公认为行业内最难的大规模跨领域评估列表。它包含10181个自然语言问题和5693个SQL语句。涉及138个不同领域的200多个数据库,难度等级分为:容易、中等、困难和极其困难。
文章链接:
数据集:
2.3 SParc
2019年由耶鲁大学提出了一个大型数据集SParC,用于复杂、跨域和上下文相关(多回合)的语义解析和文本到SQL任务,该数据集由4298个连贯的问题序列(12k+个独特的单个问题,由14名耶鲁学生注释的SQL查询注释)组成,这些问题是从用户与138个域的200个复杂数据库的交互中获得的。
文章链接:
SParC: Cross-Domain Semantic Parsing in Context
2.4 CSpider
2019年西湖大学提出了一个大型中文数据集CSpider,用于复杂和跨领域的语义解析和文本到SQL任务,由2名NLP研究人员和1名计算机科学学生从Spider翻译而来,该数据集包含10181个问题和5693个独特的复杂SQL查询,涉及200个数据库,多个表覆盖138个不同的领域。
文章链接:
A Pilot Study for Chinese SQL Semantic Parsing
数据集:
2.5 CoSQL
2019年,耶鲁大学和Salesforce Research提出了一个跨域数据库CoSQL,它由30k多个回合加上10k多个注释SQL查询组成,这些查询来自绿野仙踪(WOZ)收集的3k个对话,查询跨越138个域的200个复杂数据库。
文章链接:
数据集:
A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases
2.6 TableQA
2020年,追一科技提出了一个大规模的跨领域自然语言到SQL的中文数据集TableQA,包括64891个问题和20311个针对6000多个表的独特SQL查询。
文章链接:
TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation
数据集:
2.7 DuSQL
2020/11,百度为跨域文本到SQL任务提出了一个大规模实用的中文数据集DuSQL,包含200个数据库、813个表和23797个问题/SQL对。
文章链接:
DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset
数据集:
2.8 CHASE
2021年,华盛顿大学和微软研究院提出了KaggleDBQA,这是一个真实Web数据库的跨领域评估数据集,具有特定领域的数据类型、原始格式和不受限制的问题。它包括8个数据库中的272个示例,每个数据库平均有2.25个表。该数据集以其真实世界的数据源、自然的问题创作环境和具有丰富领域知识的数据库文档而闻名。关键统计数据:8.7%的WHERE子句、73.5%的VAL、24.6%的SELECT和6.8%的NON-SELECT。
文章链接:
KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers
数据集:
2.9 BIRD-SQL
2023年,香港大学和阿里巴巴提出了一个大型跨域数据集BIRD,其中包含12751多个独特的问题-SQL对,95个大数据库,总大小为33.4GB。它还涵盖了37多个专业领域,如区块链、曲棍球、医疗保健和教育等。
文章链接:
数据集:
三、相关技术
3.1 MAC-SQL
文件链接:
MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL
代码链接:
流程图:
3.2 DBCopiLOT
论文链接:
DBCᴏᴘɪʟᴏᴛ: Scaling Natural Language Querying to Massive Databases
源码:
流程图:
3.3 DAIL-SQL
论文链接:
Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
源码:
流程图:
3.4 RESDSQL
论文链接:
RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL
源码:
流程图:
3.5 DAMO-ConvAI
论文链接:
源码:
流程图:
3.6 DIN-SQL
论文链接:
DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
源码:
流程图:
3.7 ChatGPT's zero-shot Text-to-SQL
论文链接:
A comprehensive evaluation of ChatGPT’s zero-shot Text-to-SQL capability
源码:
流程图:
3.8 Binder
论文链接:
BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES
源码:
流程图:
3.9 SC-prompt
论文链接:
Few-shot Text-to-SQL Translation using Structure and Content Prompt Learning
源码:
流程图:
3.10 T5-SR
论文链接:
T5-SR: A UNIFIED SEQ-TO-SEQ DECODING STRATEGY FOR SEMANTIC PARSING
源码:
无
流程图:
更多推荐
所有评论(0)