迄今为止,全球英语口音已演化多达60余种,这主要是因为全世界使用英语的人口当中,有3亿人以英语为母语,3亿人以英语为第二语言,或必要时以英语与人交谈,间接导致了不一样的国家说英语的方式不同。

随着科技的进步,语音识别技术已经渗透到生活的方方面面,然而,面对带口音的英语,通用的英文语音识别模型的鲁棒性及准确率都会有明显下降。

Part1: AI听不懂?可能是数据的问题

为了让模型能够更准确理解全球不同国家英语发音人想表达的内容,提升英语语音识别准确率,使用高质量的数据集成为解决问题的有效办法之一。

当前市场上存在的口音英语数据集,无论是商用还是开源,通常通过录音人朗读脚本或由网络收集公开音视频资源加工制作等方式获取。从语音角度来看,这样的获取方式容易出现语音自然度欠缺、副语言现象不够丰富等情况。

另外,从领域来看,语料内容主要集中在各种媒体平台的演讲和新闻等,不太符合日常生活的表达习惯与内容。

打开网易新闻 查看更多图片

此外,很多英语数据集虽然采用专业设备录制,也覆盖了多地口音。但录音人在进行语音朗读时,存在状态偏正式,自然度偏低等问题。

Part2: 口音英语单人朗读数据集

基于以上情况,数据堂在构建英语语音数据集时,充分考虑口音英语模型识别能力进一步提升的需求。相继推出涵盖30+国家、20000小时英语语音数据集,旨在帮助提升英语语音识别模型的表现力。

打开网易新闻 查看更多图片

数据堂自有的口音英语数据集,由37684位采集者共同录制。为保证单人时长分布更合理,我们的语言专家特别设计了每人30分钟左右且内容丰富的语料,录制环境相对安静,发音习惯契合当地的英语口音表达。

录音文本内容均由语言专家参与设计,覆盖了所有通用场景,包括车载、家居、交互、数字等多个类别,内容非常丰富。这有效平衡了口音和内容的覆盖范围。

作为语音识别领域的经典数据集,数据堂口音英语数据集已被全球知名AI企业与科研机构广泛使用,句准确率高达98%以上,数据质量得到验证。

Part3: 口音英语自然对话数据集

近年来,面对语音识别技术突飞猛进的发展,基于现有的多国多地区口音英语数据研究经验,数据堂发布了业内首个多领域自然对话口音英语数据集。

这套数据集与市场上已有的给出既定录音脚本的模拟录制方式不同,让录音人选择更熟悉的话题进行自由对话,从而更大程度上保证了语音的内容更加贴合实际应用场景。话题领域包含日常、线上会议、多人会议、职场、游戏、购物、金融等全领域内容。

此外,发音人口音覆盖新加坡、澳大利亚、日本、韩国、印度等20多个国家和地区,标注文本转写内容、说话人身份等,词准确率99%以上。

结语

高质量的口音英语数据集可以助力客户快速提升口音英语语音识别模型能力。数据堂致力于为客户打造更高质量、更高准确率的数据,以应对各种挑战,期望携手共同开创语音技术的崭新未来。