打开网易新闻 查看更多图片

新智元报道

编辑:编辑部

【新智元导读】2023年度国家科学技术大奖公布了!今年的评选堪称史上最严、最难,竞争最激烈的一届。这当中,大厂中唯有科大讯飞摘得了国家科学技术进步奖一等奖,成为过去十年AI领域获得的首个国奖一等奖。

就在昨天,2023年度国家科学技术大奖一出炉,直接登上了热搜榜首。

打开网易新闻 查看更多图片

武汉大学李德仁院士、清华大学薛其坤院士获得了科技界的最高荣誉——国家最高科学技术奖。

此外,还有一大批贡献卓越的科学家和标志性成果获得国家科技奖励。

打开网易新闻 查看更多图片

综合来看,今年整体的获奖情况现状是:

基础研究领域重大成果持续产出,自然科学奖连续9次产生一等奖。 中青年科技人才成为我国科技创新的重要力量。 三大奖通用项目中,45岁以下完成人占比40%左右。 国家自然科学奖中,45岁以下完成人超过一半。

值得一提的是,2023年度的国奖,百度、阿里云等企业纷纷参选,但唯有科大讯飞荣获国家科学技术进步奖一等奖。

这是深度学习引发新一代AI浪潮以来,过去十年人工智能领域获得的首个国奖一等奖。

打开网易新闻 查看更多图片

科大讯飞作为第一单位,获奖项目是《多语种智能语音关键技术及产业化》

这也是科大讯飞继2002年和2011年分别获得国奖二等奖之后,时隔12年再获国奖。

不同以往,今年的国奖评选,堪称史上竞争最激烈的国奖,也是国家科技奖史上最难的一年。

史上最严、最难、竞争最激烈的一届

为什么这么说?

- 国家科学技术进步奖越来越难

宏观上讲,国家科学技术进步奖越来越难,与多次改革息息相关。

自2017年以来,国务院在奖励制度和奖项瘦身方面做了改革,力度越来越大。

比如在2017年,将三大奖项由总数不超过400项减少到不超过300项,并且明确「推荐制」调整为「提名制」。

2020年则提出,精简提名材料、淡化SCI(科学引文索引)论文至上、允许外国人参加评选等新的举措。

可以看到,报奖实行提名制、数量宁缺毋滥,正是国家科技奖励制度改革的两大方向。

2020年度国家科学技术进步奖一等奖就是空缺的。

- 暂停两年之后积累了大量优秀成果

另外一个原因便是,因2021年、2022年国奖暂停申报,使得2023年度积累了大量的优秀成果。

今年,受理通用项目的总数高达1261项,最终筛选通过初评总数为301项(其中通用项目243项)。

同时,初评环节的特等奖、一等奖项目只有29项(不含专用项目)。

这也就不难看出,2023年是国奖史上最严、最难,竞争最激烈的一届,不仅提名环节指标难拿、初评环节网评难过,而且答辩环节竞争极其激烈。

- 计算机与自动控制组、电子与科学仪器组、网络与通信组大牛云集

而且,与计算机、电子信息、AI相关的项目比例众多。

就连华为陈海波、百度王海峰、曙光历军等科技大厂的AI大牛们,纷纷现身牵头项目参与评选。

具体来说,在今年评选形式审查阶段中,其中信息领域相关的科技进步奖共有86项。

其中,计算机与自动控制组45项、电子与科学仪器组28项、网络与通信组13项。

经过初评之后,仅剩下了5个项目,获得了科技进步奖一等奖(其中计算机与自动控制组2项、电子与科学仪器组2项、网络与通信组1项)。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

看得出来,和过往的情况类似,拿奖的以学术机构和央企居多,民企非常罕见。

科大讯飞能够脱颖而出,足见一家科技企业具备国际领先的科技硬实力,并拥有着强大的AI内核和深厚的AI功底。

十年磨一剑,中国AI「亮剑」

回看这家公司的创业历程,讯飞自成立以来便在AI领域深耕25年,一直坚持技术顶天、应用立地,将相关人工智能技术和产业都做到第一。

从最初专注于中文语音合成,到逐步拓展至语音识别和语义理解领域;从聚焦中英双语,到涵盖多种语言;从单一的语音技术,到融合图像处理和多模态感知,实现了多维度的信息表达;再到大模型技术与国际领先水平的对标。

这条充满中国智慧的自主研发之路,不仅彰显了讯飞的技术实力,更打破了国外企业在该领域的长期垄断地位。

多语种智能技术,持续攻关近10年,其主要技术获得几十项世界冠军:

  • 在语音合成技术上,从2006年到2019年,讯飞连续14年获得Blizzard Challenge 国际语音合成大赛冠军;

  • 在语音识别技术上,2016-2023年,连续获得国际多通道语音分离和识别大赛CHiME四连冠,2021年在国际低资源多语种语音识别竞赛OpenASR中获得所有15个语种受限赛道和7个语种非受限赛道的冠军;

  • 在多语种翻译技术上,讯飞在2021-2023年连续三届获得IWSLT(国际口语机器翻译比赛)冠军。

这次,科大讯飞之所以能在一众强悍的对手中「杀出重围」,正是源于这些年的持续攻关、厚积薄发。

其获奖项目「多语种智能语音技术」,可以说是中国AI科技的「亮剑」之作。

它由科大讯飞联合中科大、清华等顶尖院校,以及华为、中国移动等知名企业共同研发,是多个语种的语音识别、语音合成、机器翻译集合为一体的综合技术,打破了科技封锁,解决了「卡脖子」难题。

目前,该技术支持的语种数量达到了69个,同时,还覆盖了维、藏、蒙、哈、朝、壮、彝等24种主要中国方言。

具体来说,项目提出了四个方面的重大技术创新:

1. 复杂语音信号的解耦建模

语音识别中,最有挑战性的场景就是远场、噪声、多人语音混叠下的识别,这是业内有名的「鸡尾酒会难题」。

为了攻克这个问题,科大讯飞提出了多通道语音信号时空分离建模方法,利用自适应语音分离算法估计多个说话人的帧级声纹表征,并结合后端语音任务的反馈,迭代指导前端,实现多个说话人和噪声在空间上的精确分离。

此外,为了解耦语音信号中说话内容和噪声,科大讯飞还提出了内容、韵律、音色以及语种多维度属性解耦表征方法,使得复杂场景下语音识别准确率得到重大突破。

2. 多语种共享建模

面对国外科技封锁,训练多语种、小语种模型,还有一个非常棘手的问题就是知识匮乏、训练数据稀缺。

科大讯飞的思路是将小语种按照语族进行分类,找到同类语种的共同规律,再进行分析、建模和训练。

基于这个思路,他们从头设计了多语种通用音素体系RGP和基本语言单元SE,实现多语种统一音素韵律体系的构建。

训练过程中,将同语族的多个语种放在一起进行共享建模和基于元学习的共同预训练,最终显著提升了小语种语音系统性能。

3. 语音语义联合建模

在复杂应用场景下的语音交互、语音翻译技术始终有一个技术难题,就是难以理解深层次的语义,尤其是涉及到专业领域。

如果不能在语音技术中结合对语义的理解,势必会拉低准确率。为此,科大讯飞提出了语音语义互增强的鲁棒口语理解技术以及多源知识增强的可信文本生成技术。

前者实现了语音语义空间对齐的统一编码网络,使用多任务联合训练的技术使两个方面互相增强;后者构建了基于弱监督数据的信息检索模块,并用交叉注意力融合在模型中,提升专业词汇与知识引用的准确率。

4. 国产异构硬件平台训练及推理加速

在科技竞争日益激烈的情况下,自主创新是一个重要战略任务。

然而,构建国产化算力平台就是一个大难题,而将训练和推理迁移到国产硬件设备的过程中,许多模型也面临着性能低、适配难等困境,算力与国际主流芯片存在差距。

为了彻底解决「卡脖子」问题,科大讯飞提出两项技术:硬件亲和的变长输入算子融合,以及联合统一的量化感知训练。

前者将动态张量算子通过软硬件协同优化进行自动融合,更适合语音这种变长输入的模态,性能优化到了国际主流芯片的同等水平。

后者通过多硬件联合的量化计算模拟,大大降低了模型的部署难度。只需完成一次训练,即可实现跨硬件平台的「一键部署」。

以相关的技术突破为基石,科大讯飞勇担重任,目前已建成了5个国产化集群,在语音合成、识别、翻译、交互等应用上的日服务达到8.73亿次。

科大讯飞还与华为合作,联合攻关大模型国产化算力底座核心难题。目前已建成首个万卡全国产算力平台「飞星一号」,填补了国产超大模型训练平台的空白。

引人注目的是,讯飞在语音产业国内市场占有率稳居第一,且在全球多语种市场占比8.1%,并持续提升。

这得益于项目构建了自主可控的多语种产业生态:

开创引领智能语音产业,在智能软硬件方面,开创智能翻译机、智能办公本、智能录音笔等智能硬件新品类;在会议、办公等场景,其服务遍及全球50多个国家和地区,支持了超过40万场会议,其中包括全国两会;在普通用户侧,联合中国移动的电视语音遥控服务超1亿家庭。

中国制造出海背后,也有科大讯飞多语种技术的支持。支持各主流手机厂商累计激活设备超10亿台,有效解决华为等厂商出海的多语种「卡脖子」问题;智能汽车方面,支持奇瑞、一汽、长安等车企超200万套订单出海。

在全世界,科大讯飞每年提供翻译服务51.5亿次。

不仅如此,讯飞还发布了「多语种语音云」平台,承建智能语音国家新一代人工智能开放创新平台,开展了「听见AI的声音」等多项公益行动。

下一步,智能语音+认知大模型

在通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。

今年1月30日,基于语音属性解耦、语音信号时空分离等技术突破,科大讯飞首次发布了「星火语音大模型」,取得了国际领先成果。

在37个主流语种效果上,星火性能显著超过了OpenAI Whisper V3。在24个主要语种中,Whisper v3平均识别率为82%,星火语音大模型达到了90%。

打开网易新闻 查看更多图片

紧接着,4月26日,科大讯飞再次首发「多情感超拟人合成」功能,还可以一句话实现声音复刻。

这让AI像真人一样,具备更加丰富的情绪情感、有生动的口语表达,还有笑声、有语气、有情调等等。

打开网易新闻 查看更多图片

大模型+语音技术的结合,成为AI未来发展的一大趋势。

LLM(大语言模型)加持的语音技术,可以在复杂语义理解、长文本建模能力,进一步提升语音识别、合成和翻译的效果。

与此同时,基于LLM强大的语音理解、知识问答、多轮对话、多模态建模能力,扩展了智能语音技术的使用场景和应用价值也得到大幅提升。

在语音同传、自动客服、辅学答疑、虚拟员工、陪伴机器人、服务机器人等赛道上,这项技术将会来带巨大产业机会,并加速通用人工智能时代到来。

顺便提一句,6月27日,讯飞星火V4.0也将正式发布,底座能力全面对标GPT-4 Turbo。

与此同时,星火语音大模型也将迎来全新升级。

未来,在科大讯飞国际领先的智能语音技术基础之上,讯飞星火将进一步向着「解放生产力、释放想象力,为每个企业和每个人打造专属AI助手」的更大愿景,持续攀登、持续进步,用人工智能建设美好世界!