随着苹果Siri、亚马逊Alexa、谷歌Assistan、微软Cortana、三星Bixby等一系列智能语音助手和相关设备的到来,语音识别正确率也得到了很大的改善。日前微软宣布,微软对话式语音识别系统出错率达5.1%,创下目前为止的最低水平。

打开网易新闻 查看更多图片

微软语音识别系统达新里程碑:出错率仅5.1%

微软表示,这一新纪录同时也超过了去年微软人工智能及研究事业部一组研究人员所实现的5.9%出错率(两次均研究均转录的是Switchboard语料库中的录音),达到了专业速录员的同等水平。

在此次研究中,专业速录员具备重复收听录音、了解对话语境、与其他速录员合作等优势。

而新语音识别系统在基于神经网络的语音语言模型上又继续加入了一系列改进,其中添加了一个额外的CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)用来提升语音建模的效果。并且,系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧/句音级别和单词级别下都可以发挥效果。

这样一来,微软研究员们可根据整个对话过程的历史记录来预测接下来可能会说的话,进一步加强了识别器的语言模型,增强了模型对话题和局部上下文的适应能力。

整体而言,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,实施最新研究的研究人员能够在去年基础上把出错率降低约12%。

微软语音识别系统达新里程碑:出错率仅5.1%

微软表示,当前其语音识别系统已被用于语音助手“小娜”、实时翻译字幕功能Presentation Translator以及微软认知服务中。

最后微软指出,在教会了电脑把语音转换为文字之后,下一步还要教会电脑理解其中的含义和目的。同时预测,从语音识别到语音理解将会是语音相关技术的下一个重要前沿。