数据上新|不只朗读！数据堂新增20+国家口音英语自然对话数据集！

迄今为止，全球英语口音已演化多达60余种，这主要是因为全世界使用英语的人口当中，有3亿人以英语为母语，3亿人以英语为第二语言，或必要时以英语与人交谈，间接导致了不一样的国家说英语的方式不同。

随着科技的进步，语音识别技术已经渗透到生活的方方面面，然而，面对带口音的英语，通用的英文语音识别模型的鲁棒性及准确率都会有明显下降。

Part1: AI听不懂？可能是数据的问题

为了让模型能够更准确理解全球不同国家英语发音人想表达的内容，提升英语语音识别准确率，使用高质量的数据集成为解决问题的有效办法之一。

当前市场上存在的口音英语数据集，无论是商用还是开源，通常通过录音人朗读脚本或由网络收集公开音视频资源加工制作等方式获取。从语音角度来看，这样的获取方式容易出现语音自然度欠缺、副语言现象不够丰富等情况。

另外，从领域来看，语料内容主要集中在各种媒体平台的演讲和新闻等，不太符合日常生活的表达习惯与内容。

此外，很多英语数据集虽然采用专业设备录制，也覆盖了多地口音。但录音人在进行语音朗读时，存在状态偏正式，自然度偏低等问题。

Part2: 口音英语单人朗读数据集

基于以上情况，数据堂在构建英语语音数据集时，充分考虑口音英语模型识别能力进一步提升的需求。相继推出涵盖30+国家、20000小时英语语音数据集，旨在帮助提升英语语音识别模型的表现力。

数据堂自有的口音英语数据集，由37684位采集者共同录制。为保证单人时长分布更合理，我们的语言专家特别设计了每人30分钟左右且内容丰富的语料，录制环境相对安静，发音习惯契合当地的英语口音表达。

录音文本内容均由语言专家参与设计，覆盖了所有通用场景，包括车载、家居、交互、数字等多个类别，内容非常丰富。这有效平衡了口音和内容的覆盖范围。

作为语音识别领域的经典数据集，数据堂口音英语数据集已被全球知名AI企业与科研机构广泛使用，句准确率高达98%以上，数据质量得到验证。

Part3: 口音英语自然对话数据集

近年来，面对语音识别技术突飞猛进的发展，基于现有的多国多地区口音英语数据研究经验，数据堂发布了业内首个多领域自然对话口音英语数据集。

这套数据集与市场上已有的给出既定录音脚本的模拟录制方式不同，让录音人选择更熟悉的话题进行自由对话，从而更大程度上保证了语音的内容更加贴合实际应用场景。话题领域包含日常、线上会议、多人会议、职场、游戏、购物、金融等全领域内容。

此外，发音人口音覆盖新加坡、澳大利亚、日本、韩国、印度等20多个国家和地区，标注文本转写内容、说话人身份等，词准确率99%以上。

结语

高质量的口音英语数据集可以助力客户快速提升口音英语语音识别模型能力。数据堂致力于为客户打造更高质量、更高准确率的数据，以应对各种挑战，期望携手共同开创语音技术的崭新未来。

数据上新|不只朗读！数据堂新增20+国家口音英语自然对话数据集！

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

周鸿祎和二手车商聊天内容火药味十足周鸿祎很硬气

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

美国以涉俄为由将22家中国企业加入SDN名单

美媒：内塔尼亚胡执意攻打拉法他可能在赌

美众议院通过法案打击大学校园的反犹太主义行为

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

大妈在火车上跳舞直播旁边有男子拿手机拍摄

痛悼！巨星陨落！祖籍福建

90后烧饼哥回应“投入3800元赚百万”争议

五一假期首日，多地领导以“四不两直”方式检查城市安全

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

首选窗口瞄准17时27分嫦娥六号任务今日发射

欧联杯狂欢夜！勒沃库森打穿罗马，1亿巨星炸裂了：45场18球19助

美国哈马斯支持者高呼：哈马斯不是恐怖分子，是自由抵抗的战士

第135届广交会超22.1万名境外采购商到会

数据上新|不只朗读！数据堂新增20+国家口音英语自然对话数据集！

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

周鸿祎和二手车商聊天内容火药味十足 周鸿祎很硬气

崩盘!快船惨败2-3独行侠 哈登12中2乔治13中4东契奇35+10

美国以涉俄为由将22家中国企业加入SDN名单

美媒：内塔尼亚胡执意攻打拉法 他可能在赌

美众议院通过法案 打击大学校园的反犹太主义行为

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

碾压局！绿军4-1淘汰热火晋级 布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

大妈在火车上跳舞直播 旁边有男子拿手机拍摄

痛悼！巨星陨落！祖籍福建

90后烧饼哥回应“投入3800元赚百万”争议

五一假期首日，多地领导以“四不两直”方式检查城市安全

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

87岁王德民被称"最帅院士"爆红网络 高考曾接近满分

首选窗口瞄准17时27分 嫦娥六号任务今日发射

欧联杯狂欢夜！勒沃库森打穿罗马，1亿巨星炸裂了：45场18球19助

美国哈马斯支持者高呼：哈马斯不是恐怖分子，是自由抵抗的战士

第135届广交会超22.1万名境外采购商到会

周鸿祎和二手车商聊天内容火药味十足周鸿祎很硬气

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

美媒：内塔尼亚胡执意攻打拉法他可能在赌

美众议院通过法案打击大学校园的反犹太主义行为

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

大妈在火车上跳舞直播旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

首选窗口瞄准17时27分嫦娥六号任务今日发射