如此高自然度、智能度的人机交互方式逐渐进入我们生活,人们对机器给予的情感表现力以及个性化能力需求明显提高,为了赋能大模型时代的AI语音交互,数据堂快速升级个性化语音合成数据服务能力,帮助客户增强音色保真度和情感表达的需求,以满足虚拟人、有声阅读、短视频和智能客服等多种应用场景需求。

打开网易新闻 查看更多图片

多模态语音合成指的是在传统的声音感知模态基础上,增加了通过面部捕捉达成的视频感知模态。数据堂依托语音、视觉方面多年的数据处理经验以及增强升级的高音质合成系统,打造了全新的语音、视觉多模态融合的成品数据集。

由多人参与的音视频数据,采用多设备同步录制的方式,通过脉冲信号进行精准对齐,满足极高的准确性要求。采集人极具丰富的情感,使表情更加具有表现力。其次,通过常规自然对话的重现,使合成的声音更具自然真实性。

资源储备优势

借助多年的TTS数据项目经验,数据堂积累了丰富的专业演员、模特资源,他们更优于普通素人的台词功底及极佳的语音、面部表达能力,数据质量更高。

专业采集设备

数据堂增设了专业的电容麦克风,支持在不同的距离和空间锚定并进行多通道同步的多模态数据采集。涵盖多种场景、多个年龄、数十种拍摄角度,具备良好的采集多样性。

此外,区别于传统的TTS数据制作流程,数据堂紧跟市场需求变化,助力实现合成效果的全面升级,帮助客户模型适配到更具个性化和丰富表现的场景中。从而获得更高合成效率,更完美的声音体验。

数据堂除了单人音库数据外,还增设了多人平均模型库,使声音涵盖更多种类的音色及极高的个性化,帮助客户完成语音合成训练中的各种任务。

在传统音乐数据标注格式中,通过对五线谱的标注,进而体现音乐各乐理层面的信息,同时,还需通过textgrid体现语言部分的信息标注。

打开网易新闻 查看更多图片

▲ 音乐信息标注

▲语言信息、声韵母标注

数据堂TTS处理能力全面升级,我们支持将音乐信息与语言信息统一到同一格式范畴,提取出关键的音高、连音等信息,通过textgrid进行统一标注,使流程变得更加精简,极大提升使用效率。

▲业内最新音乐标注方式

此外,数据堂也新增加了唱法标注等标注能力,使人声方面的数据处理能力变得更加精细。

▲换气、重音、顿音标注展示

为了积极应对更多领域的语音合成需求,数据堂拥有自建专业TTS录音棚,并已积累成熟的采集能力与庞大的成品数据资源。个性化音色库满足多领域、多角色、多语种等众多音色需求,如霸道总裁音色、邻家哥哥音色、高冷御姐等音色。

霸道总裁音,数据堂,3秒

主播男音色,数据堂,10秒

主播女音色,数据堂,9秒

数据堂拥有丰富的对话式TTS数据储备,通过选用专业的客服、记者人员,在数据堂自有的通过专业级NR15声学标准的专业录音棚,真实模仿访谈、客服等工作场景,极致还原多角色的工作状态。这也是目前为止,最具自然度的对话采集方式。

对话式客服试听样例,数据堂,18秒

数据堂为每个TTS项目分配专业的监听人员,全程把控录音质量,确保在任何环境下输出另客户满意的语音清晰度,保持专业的高质量数据把控力。

打开网易新闻 查看更多图片

在大模型飞速发展的时代,语音合成技术正在赋能自然逼真流畅的用户体验。数据堂拥有一套完善的语音合成数据质量和安全管理体系。通过专业的设备与环境,丰富的样音资源,多年TTS项目积累的经验,可以满足多种声音形象需求。