本届冬奥会不仅是运动员们的竞技舞台,更是科技公司“秀肌肉”的绝佳舞台。诸多科技亮点之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手语数字人。

2月4日晚开幕的冬奥会上,央视新闻AI手语主播正式上岗,陪伴听障人士见证了一场场精彩绝伦的比赛。即将开幕的冬残奥会,这位手语数字人也义不容辞,将披挂上阵,让听障人士实时感受冰雪运动的魅力。

打开网易新闻 查看更多图片

创造丰厚的冬奥遗产,为国家、主办城市、人民群众带来长期的、积极的收益,也是成功办奥的重要标志之一。在日常生活中,手语数字人能不能继续发光发热,为听障人士提供服务呢?

我们关注到,3月3日,央视新闻AI手语主播的制作者——百度智能云曦,又推出“AI手语平台”,通过分钟级生成手语合成视频、手语主播实时直播等能力,为手语服务的普及难题,提出了科技平台化的新解法。

同时,百度智能云曦灵还发布了“AI手语平台一体机”,让一些需要硬件交互的场景,比如医院、银行、车站等公共场合,插电即可提供手语服务,快速部署无障碍窗口。

平台化和软硬协作的革新,正在让手语数字人走上一条与社会价值长期对接、一同成长的进化之路。

科技巨头们都在积极打造手语数字人,反映出哪些潮水的方向?数字生命与智能技术的温情加速照进现实,这究竟意味着什么?

数字生命觉醒时:手语数字人的能力体系

百度智能云曦灵平台赋予手语数字人哪些特殊能力?我们不妨以人类手语老师的标准来审视一下。

有一种“难”,叫朱广权的手语老师,想要实时且准确地翻译出朱广权的妙语连珠,千挑万选的央视手语老师有时也难免手忙脚乱。而在此前与朱广权的在线pk中,这位由“百度智能云曦灵”打造的首个AI手语主播,面对朱广权不断抛出的超高速顺口溜,立马就能做出反应,表现出流畅、精准的业务能力。

综合来看,手语主播的华丽炫技,以及冬奥会上的扎实服务,来自百度智能云曦灵平台提供的三个方面的基础能力:

1.理解能力。

真实世界中,很容易受到噪音干扰,人类手语老师必须听清、听懂新闻内容,不然翻译出来也可能是错误的,一通比划猛如虎,但无法真正投入使用。

想要听清,需要领先的语音识别能力。百度智能云曦灵平台融合了百度自然语言处理技术,成熟领先的全双工ASR(Automatic Speech Recognition)语音识别模型,近场中文普通话的识别准确率,能够达到98%以上。

轻松搞定各种语音内容,即使段子手朱广权的神级语速也不在话下,这为后续数字人的手语翻译打下了坚实的基础,使得AI手语平台一体机更好地应用于不同场景中。

打开网易新闻 查看更多图片

2.翻译能力。

感知之外,手语老师要分析、归纳重要信息,根据语句整体意思进行精炼和语序调整,将其转换成手语语言。

一些厂商研发的手语数字人直接采用“手势汉语语料”,好处是无需重新标注,节省时间,问题是生硬地按照说话顺序将手语手势连接起来,并不能算是“人类高质量手语”。

举个例子,“我想回家”并不是将这四个汉字依次比划出来,而是按照“家”、“回”、“我想”的顺序来表达。

因此,想要翻得准,手语数字人必须学会自然手语语序。百度智能云曦灵平台就基于“国家手语语法规则”,联合手语语言学专家,特殊教育专家、天津理工大学等,邀请上百位听障学生做数据标注,形成了近千万的高质量训练数据。

有了数据,接下来就是模型设定与训练。基于百度多年积累的神经网络翻译技术,设计了从中文文本到手语符号的翻译方法,打造出了业内首个基于神经网络的精炼度可控手语翻译模型,让手语数字人的翻译可懂度达到85%以上,媲美主流的中英,中日等方向的机器翻译结果。

3.表达能力。

手语中,手势必不可少,还需要表情、口型、动作等肢体语言的配合,帮助听障人士更好地理解。比如疑问句“吃饭了吗“,不仅要做出吃饭的手势,还要配上疑惑的表情,眉头皱起、眼睛睁大。

要让手语数字人声情并茂、手舞足蹈地表达,尤其是3D人像,有着不小的技术难度。一些手语数字人动作过快,有时又存在卡顿不连贯的情况。为了训练手语数字人的“声台形表“,百度智能云曦灵平台也是煞费苦心:

来源:脑极体