当前,智能网联汽车产业规模迅速增长,自动驾驶成为研究热点,车载智能计算平台是实现自动驾驶的必要解决方案。车载人工智能芯片是车载智能计算平台的硬件核心之一,语音交互技术是车载人工智能计算平台的重要交互手段。智能汽车的语音控制功能成为了车上语音命令的基本操作。在中国,乘用车智能语音交互功能的搭载率逐年攀升,从2019年的49.82%,到2020年的63.25%,再到2021年的86%。高频运用场景是:导航、播放音乐、空调和拨打电话,相信以后智能语音会成为一辆汽车的标配。

近日,微美全息公开一项专利技术,是一种基于AI语音控制的互动式车载机器人,机器人前端面中部设置有显示屏,左右端面上部转动连接有手臂,后端面上边缘处设置有音响,后端面中部设置有LED显示屏。该机器人是基于AI语音控制的互动式车载机器人技术领域研发的。

语音交互过程包括四部分:语音采集、语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)。语音采集这个过程是完成音频的录入、采样及编码;语音识别语音信息到机器可识别的文本信息的转化;自然语言处理根据语音识别转换后的文本字符或命令完成相应的操作;语音合成则完成文本信息到声音信息的转换。

打开网易新闻 查看更多图片

语音交互系统架构:

用户界面连接用户和系统,用户和系统的特征都决定着用户界面的设计。语音交互系统包含以下三个主要部分,这三部分依次进行完成一轮人机交互。

(1)语音采集和语音识别(Automatic Speech Recognition,ASR):系统通过麦克风阵列采集用户的语音,并转化成文本。车内麦克风接受声音信号,转化为音频信号,经过解码、降噪、增强、特征提取、音素选取、再次解码后,最终落地为文字。高阶语音识别会对声源定位。

(2)自然语言处理(NLP)对语义进行解读,并生成回复。语音信号转换成文字被识别后,系统会拾取相应功能性词汇,生成指令。系统比照词库和深度学习筛选后,拾取出指令。

(3)语音合成(Text to Speech,TTS):系统将回复的信息转化成语音,并反馈给用户。系统将识别后的摘要转换为命令规划,发送给相应车载控制单元,执行动作。最后,语音合成模块将动作执行完成的文本转换为语音播报反馈给驾驶者。

语音交互有三大技术难点:一是拾音准确,噪音消除;二是语音深度学习模型的训练数据;三是识别特征抽出模型的训练。微美全息研发团队正在大力开发AI语音交互技术,完善智能汽车的语音系统,实现更高效率的AI交互功能。

微美全息同时也在研发设计适用于AI语音交互车载机器人的语音芯片,为车内语音交互场景设计的超低功耗远场语音交互芯片,具有远场阵列信号实时处理,高级毒超低误报语音唤醒、离线语音识别等功能。微美全息的人工智能语音机器人的推出,将促进微美全息半导体业务的增长。

随着人工智能的兴起,人工智能、自动驾驶、语音识别、手势交互等研发成果逐步落地,车载、教育、都渗透了人工智能技术。智能语音作为人机交互的重要手段也将被广泛应用于各个领域。除常见的车载场景外,教育培训、医疗场景、政务服务场景都能搭载智能语音交互技术。