作为合成数据领域的领导者,Gretel发布了世界上最大的开源文本到SQL(Text-to-SQL)数据集,为企业中的人工智能解锁了新的可能性。Gretel的数据集可以在Hugging Face上获得,并在Apache 2.0许可下发布,它包含超过100,000个高质量的合成文本到SQL示例,其中包含SQL元数据,跨越100个垂直应用领域。

打开网易新闻 查看更多图片

通过访问Gretel的开源、高质量合成数据集,开发人员可以训练人工智能模型,使业务用户能够从关键的企业数据源中提取价值,从而加快整个企业的人工智能计划。

“获取高质量的训练数据是构建生成式人工智能(GenAI)的最大障碍之一。Gretel所做的一切都是为了正面解决这个问题,对开源社区的贡献也不例外。”Gretel的联合创始人兼首席产品官Alex Watson说。“通过为开发人员提供高质量的合成文本到SQL数据,我们使客户能够创建能够理解自然语言查询并生成SQL查询的人工智能模型。这使得整个组织的用户可以轻松地访问复杂的数据库、数据仓库和数据湖并从中获得见解,而无需学习SQL或依赖技术团队。很高兴开发人员能够利用我们的数据集,并在此基础上进行开发。”

对人工智能训练数据的需求不断增长

全球的人工智能公司都在努力获取高质量的训练数据。在企业中,对文本到SQL数据的需求特别高,这些数据对于构建到关键数据源的自然语言接口至关重要。几乎每个企业都有隐藏在数据表或数据视图中的宝贵见解,只有精通结构化查询语言(SQL)的开发人员才能访问这些见解——SQL是与数据库、数据仓库和数据湖交互的标准语言。在文本到SQL数据上训练的人工智能模型允许业务用户根据需要从这些数据集中获取价值。

目前,大多数文本到SQL的数据集都是手动管理和注释的,这限制了它们的大小、适用性和实用性。这是个昂贵的,劳动密集型的过程,而且很麻烦。例如,由7k个样本组成的Spider文本到SQL数据集,由耶鲁大学的11名大学生注释,总共花费了1000个小时来完成——对于大型语言模型背景下的一个相对较小的数据集来说,这是一个令人难以置信的工作量。

此外,绝大多数现有的Text-to-SQL数据集缺乏对其SQL代码功能的自然语言解释。Gretel的数据集包括一个解释字段,提供SQL代码的纯英语描述,这有助于最终用户快速理解输出并实现其价值。

填补开源社区的空白

迄今为止,开源社区几乎没有提供任何缓解。例如,Spider数据集在商业许可的创作共用许可(CC-BY-SY-4.0)下可用,但它是一个copyleft许可,这意味着衍生作品必须在相同或兼容的许可下获得许可。这与MIT或Apache许可证有很大不同,后者允许在不同的许可证条款下发布衍生作品,而不需要署名或共享相同条款。

随着Gretel的文本到SQL数据集在Apache 2.0许可下发布,人工智能开发人员可以构建会话应用程序,为跨行业的企业开辟一系列新的机会。

财务:分析师和经理可以询问有关公司财务表现的问题,并从他们的数据库中立即得到答案。示例查询:“按产品类别划分,上一季度信用卡交易产生的总收入是多少?”

健康:供应商可以简化从多个(2-10k)实验中查询和分析临床试验数据的过程。示例查询:“找出在过去6个月的试验中,与安慰剂组相比,接受新药治疗的45-60岁患者的血压平均降低了多少。”

政府:领导人可以为公民提供一种简单的方式来搜索和访问公共记录数据库,这些数据库可能包括许可证、财产所有权、许可证等。示例查询:“找出2010年至2020年间人口增长率最高的10个县。”

打开网易新闻 查看更多图片

在人工智能时代提升数据质量

Gretel的Text-to-SQL数据集是由Gretel Navigator生成的,这是一个复合人工智能系统,集成了基于代理的执行、多种专有模型(包括自定义表格式大型语言模型(TabLLM))和隐私增强技术,为企业人工智能团队生成高质量的合成数据。

Gretel利用先进的生成式人工智能模型和增强隐私的技术,将数据转化为任何人都可以使用的安全可再生数据资源。这些服务在其平台上以低代码工具和API的形式提供,以多种形式(文本、表格、时间序列、图像)提供数据的合成版本。Gretel的平台和SaaS工具是自助的、灵活的、可扩展的,可以适应任何开发人员的工作流程。