打开

声纹识别进入落地阶段 技术仍有发展空间

subtitle
谈数码家 2021-03-03 09:48

2020年受疫情影响,消费者需求向线上倾斜,智能客服需求量也随之增加。因此,尽管疫情影响下中国经济下行,但人工智能尤其智能语音行业市场整体利好。激增的市场消费者群体,一方面带来了多元化的市场需求,另一方面,促使技术服务商不断探索新的产品功能和应用场景。近年来,许多智能语音技术服务商开始布局声纹识别领域。随着技术成熟与商业化落地,声纹识别逐渐进入大众视野。

一、声纹识别技术

声纹识别是生物识别技术的一种,也是语音技术的分支,也被称为说话人识别,包含声纹注册和声纹认证两道程序。所谓声纹识别就是把声信号转换成电信号,提取特征、搭建模型,根据匹配度进行识别判断。

打开网易新闻 查看更多图片

声纹识别VS语音识别

声纹识别相比于语音识别,近年来才逐渐进入大众视野,两者同为语音前端信号处理,经常被放在一起比较。

而谈及两者的共性及区别时,快商通联合创始人李稀敏博士在接受亿欧智库采访时表示:“声纹的载体是语音,而所谓语音就是指人说的话。在人类正常的语音交互中,我们可以识别语音主体的意图、情绪、性别、身份以及内容等信息。而利用人工智能技术完成这一识别,则需要依靠语音及声纹的提取与处理。语音识别和声纹识别虽然在智能语音技术流程中都属于对语音信号的处理,但实际的技术方向及应用却截然相反。”

“语音识别追求的是声音的共性”,李稀敏博士表示。也就是针对不同个体对于同一句话的不同声音、口音、语速表达,可以翻译成同样的文字。比如在使用智能音箱时,对于同样的指令,无论发出这个指令的个体是男是女,南方抑或是北方口音,智能音箱都需要能够对语音输入提取共性,并作出准确的一致的应答。

与之相比,“声纹识别则追求声音的个性”,即针对同一个体在不同情境下的不同表达,可以认证声源来自同一个体。比如微信的语音登陆系统,有时因外部环境,身体状态等因素,说话人的语音输入会出现语速,音高等变化,而一个完善的声纹识别系统,则需要能够提取不同情境下语音输入信号的个性,并准确认证说话人的身份以完成登陆。

声纹辨认VS声纹确认

声纹识别主要有两大应用场景,声纹辨认和声纹确认,其中:

声纹辨认,也被称作1:N识别,主要应用于在语音库范围内的语音筛查,即在海量声纹数据库中找到说话人的过程。比如,金融语音销售场景下,可以迅速根据来访者声纹信息与自身声纹数据库对比,判断客户是否为初次购买,抑或是否在征信黑名单中,从而调整销售策略。

声纹确认,也称1:1验证,主要应用于安全访问验证及身份认证等场景,系统对说话人进行语音认证,完成”你是不是你”的身份判断。相比起声纹辨认,声纹确认对于语音输入信息的质量要求更为严苛,比如微信的语音登录功能会要求使用者在无嘈杂环境中对固定文本进行语音输入。

声纹识别进入落地阶段,技术仍有发展空间

谈及声纹识别技术成熟度,李稀敏博士表示:“声纹识别拥有数十年的研究历史,但由于技术的局限,近年来才逐渐进入应用落地阶段,技术成熟度相当于3年前的语音识别。”

因此语音识别所面临的绝大部分技术痛点,也同样影响着声纹的发展。因声源采样率、信噪比、信道、语音时长、文本内容等因素变化而造成的准确率变化明显。因此提升声纹识别系统的鲁棒性是声纹识别大规模落地应用的前提条件。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
帮TA点赞
大家都在看打开应用 查看全部
网易热搜每30分钟更新
打开应用 查看全部
打开