打开网易新闻 查看更多图片

2019年8月,第七代微软小冰升级了微软小冰的部分核心技术,主要包括核心对话引擎、全双工语音及多模态交互感官等。同时拓展上线了多个第三方合作伙伴平台的小冰产品,产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。

但微软小冰是如何获取这些新技能的?在初冬的一个下午,微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威和微软小冰首席语音科学家栾剑为从多维度对第七代微软小冰背后的故事进行了解析。

揭秘:第七代微软小冰的新技能

微软小冰由微软(亚洲)互联网工程院于2014年5月正式推出,是一个融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架和系统。

目前,第七代微软小冰已成为全球最大的跨领域人工智能系统之一,产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众,在交互场景大幅度拓宽的情况下,微软小冰与用户的单次平均对话轮数(CPS)仍保持在23轮。

说:灵活性是小冰的新属性

武威博士主要介绍了他所研制的更加主动、自主的学习方式,和对微软小冰管理、关联的方式。武威介绍称,小冰发展的目标是成为一个“自我完备的对话机器人。“他应该具有的能力包括:1、学习。2、自主管理。3、连接。

其中,第七代微软小冰拥有一个有趣的应用就是共感模型,这也是自主管理的一部分。武威说:“共感模型的核心是说通过对话策略对整个的对话流程进行把控。共感模型背后实际上是有两个模型。模型一是回复生成模型。这个模型决定的是说我这个机器人说什么。模型二是策略决定模型。决定的是说我要怎么去说。”

因为有了这两个模型的结合,第七代微软小冰从原来基于上下文直接产生回复的模式,变成了从上下文到决策,然后再根据这个决策来决定对华人说什么。这也让微软小冰的回答更具有灵活性。在第七代微软小冰的优势项目中,多轮对话是交互过程中最重要的,因为它涉及到非常复杂的上下文的理解甚至说一些外部知识的引入。

武威介绍通过共感模型去把控整个的对话流程。同时,微软的工程师们还在工作中也提出了meta-word的概念,meta-word实际上代表了属性的组合。这种模型至少有几个好处。1、可解释性很强。2、可以把meta-word做成接口,工程师可以通过编辑这个接口,编辑meta-word中的属性,以及这个属性的值去打造具有各种各样的风格、情感、话题、意图等等各种各样的对话机器人。

武威说:“这个方案具有很好的扩展性,因为这些工程师们可以简单的通过增加、减少或者修改meta-word里面的属性值,就可以调整整个生成模型的效果。”

打开网易新闻 查看更多图片

唱:小冰唱歌已有突破性飞跃

微软小冰首席语音科学家栾剑提到了小冰唱歌技术的进展。他透露,小冰是从2016年开始做唱歌的,之后经过努力,小冰在语音合成领域一些大的问题已经被解决了,团队就开始寻找一个更有挑战性的课题继续来做,所以就选择了唱歌。

选择唱歌主要有三个原因:唱歌的门槛比说话高,在技术上有难点;情感表达上更加丰富激烈一些,歌曲是一种喜闻乐见的形式;它是一个很重要的娱乐形式,唱歌做好了,应该是很有市场前景、很有方向的。

传统唱歌合成的方式,主要有两大类。第一类:单元拼接的方式。优点是简便易行,音质也可以保持最佳音质,但生成出来的歌会不自然。而第二类:参数合成的方法。就是通过声学参数里面可能包括能量谱、时长、音高等建模型,但在这个过程中会有音质的损失。

现在,微软小冰正在兼容这两种办法。最开始的模型就是从乐谱里面把那三大要素采集出来之后,分别对声谱参数、节奏序列、音高轨迹用三个模型分别建模。

深度学习其中一个很重要的支撑就是数据,现在有大数据的支持才能够把深度学习做的这么好。而“对唱歌这个任务来说,数据其实是比较困难的,因为相对于说话来说,清唱的数据是非常少,绝大部分的数据是混杂的、伴奏的音轨。”栾剑表示,团队曾经和唱片公司进行合作,利用了其数据库中已有的混合了伴奏的数据进行很好的学习。

栾剑总结认为,接下来不管是人工智能创造,还是唱歌提高上,都要两条腿走路,一边要不断提高模型,一边要不断挖据更多的数据,这两个东西如果做的更好,质量会不断得到提高。

想:小冰的思想从比喻开始

小冰目前除了写诗、会画画、会作曲、会唱歌,今年另一个进展是可以创造比喻。微软小冰首席科学家宋睿华表示,希望小冰真正创造出人类不曾说过的比喻,而不是在人类已有的文章里去挖掘这种比喻句,不要用“像”、“就像”、“一样”这样子的模板把它挖掘出来。

为了帮助小冰学会“比喻”这项技能,宋睿华透露,他们从复杂的诗歌中挑选了6大类,每类122个主题,并通过小冰聊天日志过滤出了包括爱情、内心、世界、母亲、美丽、人类在内的96个常用比喻概念。随后从1000个常用词中选取了3000个最常用的形容词扩充小冰的比喻能力。

面向未来的多模态交互感官:是一种融合了全双工语音交互、实时视觉与核心对话引擎的全新交互感官。它能够实现用户与人工智能同时边听边说边看的交互体验。继去年宣布率先开始多模态感官的研发后,今年2月,微软日本小冰团队已邀请当地媒体进行了公开测试。该感官有望成为5G时代的全新交互形式。

写在最后:

对于微软小冰的未来,微软的工程师们希望以后小冰可以像人那样去理解以及交互。微软小冰本身更是一个框架,微软的技术工程师们更希望微软小冰以后能够成为一个通用的AI平台。宋睿华说:“我们也把他们叫AI beings。”