打开网易新闻 查看更多图片

【编者按】在人工智能的世界,有一群人正深耕于推动通用人工智能(AGI)从科幻走向现实。CSDN、《新程序员》特别策划“AGI 技术 50 人”访谈栏目,挖掘 AI 背后的思考,激荡 AGI 的智慧,走进那些在 AI 领域不断探索、勇于创新的思想领袖和技术先锋们的心路历程。

本期主角Daniel Povey,著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为“Kaldi之父”,凭借在语音识别和声学建模方面的杰出贡献入选IEEE Fellow。目前,这位语音识别技术大牛正作为小米集团首席语音识别科学家,带领团队开发新一代Kaldi,他认为“开源环境比金钱和荣誉更吸引我”。

作者 | 王轶群

责编 | 唐小引

出品丨AI 科技大本营(ID:rgznai100)

北京初春,一个微风拂面的午后,《AGI 技术 50 人》栏目团队专程去小米总部拜访了Daniel,与他面对面聊了聊加入小米的这四年半,以及他在中国的科研工作及生活。目前,他在团队中被人们亲切地称呼为Dan。

打开网易新闻 查看更多图片

(《AGI 技术 50 人》编辑与Daniel在小米办公室的合照)

Daniel办公桌上的红色咖啡杯里,泡的是中国红茶。春天来临,他说想换成绿茶,却不知道自己的办公室里早有一个写着“龙井”的盒子。被我们提醒后,他才发现迟迟未拆的团队礼物,竟然正是自己需要的春茶。西方礼仪里的及时拆礼物习惯,让他在跟我们聊天间就打开了盒子,并且迅速把茶叶倒进杯子,急匆匆要出办公室打热水冲泡。

“语音识别恰好是我在做的事”

这位平和谦逊的新一代Kaldi团队领导者,拥有着辉煌的履历和一流的学术背景。他是剑桥大学的语音识别博士,曾在IBM、微软研究计算机语音识别,随后去美国第一所研究型大学约翰霍普金斯大学担任语言和语音处理中心的助理研究教授。他是著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为“Kaldi 之父”。

科研、开发,对于Daniel而言,是越投入越觉得乐在其中的事。顶着“Kaldi之父”头衔的他,对很多事物都抱有浓厚的兴趣,而“语音识别恰好是我在做的事”。

Kaldi集成了多种语音识别模型,包括隐马尔可夫和当时流行的深度学习神经网络。Kaldi是第一个完全用C++编写的、基于加权有限状态机理论的语音识别开源软件,其模块化与高度可扩展性设计让Kaldi广受学术界和工业界的好评,被公认为业界语音识别框架的基石。有关于介绍Kaldi的论文被引用7000多次,Daniel Povey博士的论文也被引用了4万多次;他还对语音识别做出了许多科学贡献,包括助力判别训练(现在称为序列训练)的早期发展等。

用开源语音识别工具造福更多的使用者,是Daniel 开发Kaldi的初心:“创建一个语音识别研发平台,使大学研究人员和小公司能够获得与大公司一样好的效果。”

Kaldi自 2011 年发布以来,成千上万的人下载Kaldi,几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案,包括MIT、哈佛、清华、微软、谷歌、Facebook等等。

回忆起Kaldi开发之初,Daniel说道:“开发Kaldi是在‘深度学习’一词出现之前,最开始Kaldi 使用的是非神经方法。后来,我们为适应深度学习添加了一些工具。”

随后,Daniel看到了技术飞速发展下Kaldi的局限性。“添加了深度学习工具后,我发现Kaldi很难以跟上深度神经网络库cuDNN 等现代工具和模型架构的最新发展的方式来维护这些添加的工具。即便有些人仍然使用Kaldi的部分内容,但这些模型目前无法与最新的深度模型竞争。”

说到为什么还要着力研发新一代Kaldi,Daniel表示随着深度学习技术的发展以及硬件算力的提升,智能语音领域也进入到一个新的发展阶段,Kaldi 也需要不断更新以适应新的应用场景和技术趋势。

模型从深度神经网络DNN,到用于语言的循环神经网络RNN,再到Transformer架构,发展迭代得非常迅速。“我逐渐认识到,让当前的产品像初代Kaldi那时一样受欢迎是不现实的。因为现在有这么多的产品去选择。”Daniel表示。

2017年发布的Transformer架构,极大地改变了人工智能各细分领域所使用的方法,并发展成为今天几乎所有人工智能任务的基本模型。Daniel认为:“在一致的训练方法中,机器学习也变得越来越相似。过去,研究计算机视觉的人使用的是与语音识别研究完全不同的方法,而现在几乎每个人都在使用Transformer。如今,Transformer架构的强大通用技术能力,使得解决一项特定的目标的技术边界变得不再清晰。

其实,早在2019年,Daniel就注意到Transformer架构的潜力,并判断构建通用基础模型的时机已经到来。2019年10月Daniel Povey加入小米成立了新一代Kaldi团队(NEXT-GEN KALDI),宣布将打造新一代Kaldi。相较于之前,新一代Kaldi将兼具Kaldi效率与PyTorch灵活性。

“新一代 Kaldi 的最初目标是开发一些与现代深度学习框架兼容的语音识别工具,尤其是与PyTorch框架兼容。”Daniel解释道,“随着项目的开发,其最重要的部分已经成为基于 Python 的结构,即一个名为 Icefall 的项目。”

Daniel 表示,他和他的新一代Kaldi团队“可能会开始更多地关注 TTS”。这是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。他解释道:“因为现在的开发阶段似乎很难对自动语音识别(ASR) 产生影响,除非通过构建巨大的模型。”

2021年他以小米集团首席语音科学家的身份再次亮相,推出了新一代Kaldi。2022年12月,他凭借在语音识别和声学建模方面的杰出贡献入选IEEE Fellow。

带领新一代Kaldi团队翻越山丘

坚持开源,是新一代 Kaldi与前一代一脉相承的底色。这是 Daniel 坚持 Kaldi 开源的期望,也是小米积极拥抱开源的初心。“开源对每个人都有帮助,无法想象现代机器的发展离开开源的样子。”Daniel 表示。

这条开源之路,依然任重道远。

不同于以往,Daniel不再孤军奋战。“在小米,我有一个团队”Daniel表示,这是他在小米工作与IBM、微软的最大不同之处。Daniel带领着团队不断翻越山丘。

如果把一个AI应用比喻为一座冰山,那用户所能感知到的应用界面就是暴露在“海平面”之上的冰峰,强有力地托起这些应用的核心和庞大的技术基底,则是被深埋在“海平面”之下。而Daniel正是个庞大技术基地的核心构建者。

“我们现在正试图将重点放在设备部署上。因为一些公开可用的模型存在问题,它们太大了,以至于你无法真正将其部署在小型设备上。”对于当前市场中的语音识别产品,比如OpenAI Whisper,Daniel认为同样如此,将其部署在如手机这样的设备上并非一件容易的事。这也是新一代Kaldi团队模型开发的长处所在。他说:“我们的模型确实比常用的模型,例如Transformer,具有一定的优势。”

Daniel表示:“我们已经提出了一些小的方法,带来一些细微的改进。在机器学习中,我们有一个新的非线性激活函称作‘Swoosh’,以及一个新的标准化模块称作‘BiasNorm’。我们还没有花很多精力推广这些新方法,只是把它们作为我们之前Zipformer模型论文整体的一部分来发表。我一直在努力去实现一些大的突破。”

Daniel在小米研发的新一代 Kaldi是一个开源的智能语音技术工具集,包含核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合Icefall以及服务端引擎Sherpa四个子项目,开发者可以基于这些工具集轻松定制自己的智能语音应用。在Daniel的带领下,团队搭建出了新一代Kaldi通用技术基底,包括:

全新声学编码器:Zipformer

Zipformer是一个应用Attention机制的通用声学编码器,不仅可以用在语音领域,其在文本和图像任务上也同样适用。Zipformer具有效果更好、计算更快、更省内存等优点,这使得Zipformer模型非常适合于低资源设备端部署。

首创神经网络优化器:ScaledAdam

全新升级的神经网络优化器——ScaledAdam是新一代 Kaldi 团队在业界最知名的优化器Adam的基础上,引入了可学习的缩放因子,实现了网络训练时间大幅缩短。而且ScaledAdam与Adam一样,是一个通用的网络训练优化器。

业界最快Transducer 损失函数:Pruned RNN-T

新一代Kaldi团队还研发了业界最快的Transducer损失函数——Pruned RNN-T。实验数据显示,相比PyTorch中实现的RNN-T损失函数,Pruned RNN-T 损失函数在仅使用1/5显存的基础上,取得了约10倍的速度提升。

有限状态转换器:可微分 FST

可微分FST(Finite State Transducer)是一个有限状态转换器,可以构建复杂的语言处理模型。新一代 Kaldi 团队创造性地实现了运行于GPU的可微分有限状态机,使开发者只需要在外部构建好图的拓扑结构,将其他的一切计算和训练的部分交给k2引擎, 从而降低建模的工作量,提高灵活性。此外,新一代Kaldi团队还实现了基于GPU的状态机解码方法,实现了语音识别解码的全链路GPU加速。

Daniel强调:“其中,Zipformer与其他技术相比,为新一代Kaldi提供了最大的改进。”他表示:“我们还在研究一种新型的辅助损失函数,看起来它可能会带来很大的改善,但我们还没有发布它。”

此外,新一代 Kaldi团队还有其他技术成果,如近乎零成本的知识蒸馏技术,让小模型也能学习到大模型的本领;基于时延惩罚的低时延端到端模型的训练方法;PromptASR语音识别系统;高效数据集构建方案textsearch; 全平台语音任务服务引擎Sherpa,等等。

那么,新一代Kaldi与上一代相比,其优势在哪?“实际上,新一代Kaldi可能会与基于PyTorch的其他解决方案进行更直接的竞争,例如ESPNet或SpeechBrain或预训练的大模型。我怀疑目前使用Kaldi(或其中一部分)的人大多是出于其遗留原因而这样做的。”Daniel表示。

千里之行,积于跬步。对于Daniel来说,日常项目的微小进度在于将语音识别的精确度提高10%,“这10%很难被用户察觉”。而小米集团早已看见了该团队的努力与付出。2023年,Daniel的新一代Kaldi团队以其创新技术成果在小米集团的年度技术大奖评选中获得二等奖。

“我们已经提出了许多有趣的技术问题,也是我们发布的Zipformer模型的一部分。我们的模型开始被小米的产品团队使用。他们现在开始部署我们的模型,包括中文和其他语言的语音识别模型,主要优势是提高精度以及减少计算量。”Daniel 表示,对自己的语音识别模型在小米产品及小米生态中被部署应用感到十分开心。“在与产品团队的良好配合下,我们能够实现模型的高效部署,目前训练使用模型的速度更快,识别也更加精确。”

作为一个基础引擎,新一代 Kaldi可在语音交互层面有力赋能小米“人车家全生态”新战略。以座舱为例,使用新一代Kaldi引擎后,座舱的语音识别的性能进一步提升,服务器成本也降低一半。不仅能服务于语音任务,新一代Kaldi还可广泛地适用于各种AI任务。目前,团队首创的ScaledAdam优化器已经用在了小米自研大模型中。

同时,新一代Kaldi的出现正在对各行各业带来助力。在智能家居领域中,通过使用新一代Kaldi技术,人们可以通过语音指令控制家电设备、查询天气、播放音乐等;在教育行业中,可以对学生进行口语测试和纠正,提高学生的口语表达和听力理解能力;在医疗行业中,可以实现自动化的病历记录和诊断,提高医疗行业的效率。

打开网易新闻 查看更多图片

Daniel在中国

“一直以来,全球人工智能有关的项目都有一定比例的中国研究人员,但最近十年左右的新情况是,越来越多有趣的新研究来自在中国工作的中国人。” 四年半的时间里,Daniel对中国的兴趣日渐浓厚。

在小米,Daniel还是一如既往地延续着工作狂的风格,即便目前处在一个低压放松的工作环境中。一心一意扑在研发和新一代Kaldi团队领导工作上的他,并没有多少时间健身,甚至没有很多时间与朋友出游。靠近电脑桌的地方摆了一架电子琴,他把仅有的娱乐活动搬到了办公室。

在团队中,Daniel是一位谦逊、亲切且善于思考的领导者。“我在这样一间宽敞的办公室,我的团队成员却坐在外面并排的工位上,我总是因此而感到歉疚。”对团队成员关怀备至的他,总是把研发的责任揽到自己身上。“我拥有一个强大的团队,这里的人都非常好。”全身心投入研发的Daniel,认为阅读研究论文“往往会分散注意力”,有时没能及时跟进技术动态,导致他“重新发明了别人已经发明的东西”,还是团队的伙伴分享给他相关的论文以供参考。

(Daniel身穿“NEXT-GEN KALDI”文化衫站在陈列柜前)

Daniel曾经编程速度很快,人们一度很难跟上他的步伐,而如今他并不会花很多时间在代码上。在新一代Kaldi团队中,有一位实力强劲的程序员小哥叫匡方军,Daniel称其编程速度“非常快”。据了解,匡方军是新一代Kaldi团队的初始成员之一,也是其子项目Sherpa的主要维护者。团队的小伙伴说他编程功底深厚,对项目付出了很多。同时他也是和Daniel风格特别像的一名程序员,在团队中颇有人气。

(Daniel的书架上摆放着自己与团队的合照、可爱的中西摆件和一本《高效能人士的七个习惯》)

有时,工作计划会不可避免地存在调整,导致整体进度放缓,Daniel对此表示“这完全是我的责任”,并及时复盘,继续带领团队不断攻克难关。在项目的推进中,他对产品和市场有了更深入的认知,并且逐步明确了努力的方向。

对于压力,他说尽管人们可能会在高压的环境下产出很多,但低压的环境令人愉悦,让他和他的团队可以去开始思考并追求有趣的事。“我觉得我会倾向于沉迷不同的事情,通常情况下是不同的工作项目。”Daniel表示,“我对别人对我的看法不是那么敏感。所以不要在乎别人怎么想,只要知道自己在做什么就行了。”

对科技敏感,对人际并不敏感的Daniel,通常会给自己在小米的助理Liliana带来不小的工作挑战。在团队成员的眼中,她已经升级为Daniel在中国的全面助理,协助处理工作与日常大小事务。在办公室墙上的白板,除了满屏的工作想法,Daniel打趣地写下了“Dan惹恼Liliana的第X天”的字样。

打开网易新闻 查看更多图片

(Daniel办公室的白板上写满了有趣的想法与演算)

在小米的四年半时间里,中国饮食和中国文化已经融入了他的生活。对于Daniel来说,中西差异并不对他构成文化冲击,他在国外做大学教授期间已接触过诸多中国学生。对 Daniel 来说,中国人和中国文化早已十分亲切。

Daniel 喜欢的中国美食,并非大众喜爱的火锅,而是与西方牛排有共同之处的烤肉、羊排、排骨等整块烹制的肉类。每天中午,他在小米成立的新一代Kaidi团队同事们,就会拉着他一起去小米的食堂吃中餐。他的体态比四年前的清瘦模样显然圆润了一些,肠胃早已适应中餐。

(Daniel 办公室里摆放着中国传统工艺品)

办公桌一侧的陈列柜里,摆放着许多有关语音识别、声音建模、团队进步的奖杯。他表示,自己并不在意获得了多少奖项,而是在意这里开放、包容、尊重的工作氛围,以及小米对开源项目的提倡与重视,这正是他在小米的伯乐崔宝秋所倡导的。

多年来,Daniel一直在寻找一个适合自己搞科研的环境。在这里,他找到了。2019年他加入小米时,向崔宝秋提到的“我并不需要很高的薪水”一度被媒体广泛传播。如今,他依旧持有一样的态度。在他看来,金钱并非排在第一位。

“比如家人的陪伴就比金钱重要的多。现在的年轻人对薪资看得太重了。我认为年轻人不必那么追求高薪,反而应该在合适的时候组建家庭,抚养下一代。”

2023年暑期,他将自己的小女儿接来中国上学。在中国,他也有了亲情的陪伴。女儿也在逐渐适应中国的教育氛围。自己的女儿曾在美国吐槽学校对学业并不是那么认真,而来到中国周围的人对于学习的态度有点过于严肃,以至于没多少人会提倡打破规则。“像我一样,她也有很强的个性。”应试教育往往通向中国父母所期盼的名牌大学。而Daniel认为女儿不必跟随自己去上剑桥,选择一所适合她的即可。

“那些有极高薪水和地位的人,并不一定过得开心。”Daniel表示。他的核心乐趣,无疑是声音建模和语音识别技术研发。

放眼AGI未来,提倡技术与人的正和游戏

就像Transformer的创造者提出寻求更高效节能的架构一样,Daniel也以发展的眼光看待自己缔造的一代传奇。

对于Kaldi的广泛使用,Daniel表示:“人们一直在更换工具,所以我的感觉是,人们可能不会使用很多我们的代码。虽然有时人们仍然在他们的解码器逻辑中,保留一些Kaldi代码,即便他们的主要模型是用PyTorch或其他别的构建的。我认为现代的趋势是简化这种代码并使用通用的机器学习方法。或许,使用者的计划是最终不必使用Kaldi,因为他们正在使用一些非常通用的机器学习方法,这些方法不仅针对语音识别。只是目前,Kaldi仍然在被使用。”

我着眼于未来。”Daniel 表示,他们正在尝试提出一些新的有趣的事物,甚至是应用机器学习的新范畴。“如今,语音识别似乎已趋向成为一种商品或已解决的问题,所以我希望能找到机器学习的一些新应用,这在某些方面可能更令人兴奋。”

在广义的人工智能发展范畴上,Daniel认为语音识别在大多数应用中仅占很小的一部分。他并不担心技术会取代人类的大部分工作,至少不会取代那些需要职业资格证的工作,毕竟很多工种都在到职业许可认证和法律保护的范围内。

“人工智能在娱乐或语言生成等方面有很多应用,在这些领域人工智能在帮我们做‘零和游戏’。”他列举了一个律师的例子:如果律师有机会接触人工智能,他们将变得更有效率。这样的情况下,他们只是在与另一个律师团队对抗,而实际的总生产力不会改变,因为他们和他的对手都擅长在同一领域展开竞技。“我们只是在更努力地互相争斗。这个道理同样适用于战争。”Daniel认为,在零和游戏的设定上,人工智能会一定程度上加速人类能力的“内卷”

Daniel认为“人工智能应用在工业、农业或者矿业将更有趣,因为在这里并不是一场‘零和游戏’”。他更提倡的是,人与技术的正和游戏。在博弈论上,正和游戏意味着二者相加的和并非归零,而是双赢互惠的结果,参与者的利益是相互一致的,一方的利益增加不会导致另一方的利益减少。

在即将到来的2024全球机器学习技术大会(ML-Summit 2024),Daniel准备带来有关“The Current Moment in AI”的主题演讲。他想借助这个机会,帮助人们后退一步纵览LLM的目前的发展,从一个更大的视角来看到最近风靡的大模型只是人工智能发展中许多改进的一个。同时,Daniel还想从技术的角度,结合自己的语音研究实践,谈一谈人工智能会对人类命运产生的影响。

Daniel认为计算、内存和存储的成本会随着时间的推移而下降,但下降的速度不会那么快,效率仍然是任何产品的一个问题。“这意味着我们可能不想部署太大或太通用的模型。当然,我们仍然可以使用更大的模型作为训练过程的一部分,例如在师生学习中。到目前为止,人们还没有能够从LLM那里获得ASR准确性方面的太大改进。但这可能会改变。”Daniel表示,“就我个人而言,我不喜欢花太多时间处理非常大的模型,因为它限制了你在实验方面的选择。”

作为人工智能语音识别的先驱,谈及对于广大开发者的寄语时,Daniel认为应该将目光放长远,不要拘泥一格。“我倾向于建议人们学习一些通用的机器学习技能,例如去确保知道如何使用PyTorch一类的工具。机器学习方向正朝着在不同的任务中使用相同的方法而发展。我想知道在未来拥有过于狭窄的专业知识将是否是一件有益的事,只拥有语音相关的知识或许将过于狭隘。不过,对于大多数人来说,掌握通用知识已不是难事,因为人们已经在使用可用于其他领域的方法了。”

最近,OpenAI推出的文生视频大模型Sora自推出后热度持续增长,带动了行业中多个复现Sora项目的产生与迭代。对于Sora是否意味着AGI会加快到来的问题,Daniel 表示肯定。“Sora解决了一个非常具体的视频生成问题。我认为这与通用智能完全不同。我并不是真的担心,我认为这将是一条非常缓慢的道路。如果上网搜索,你可能会发现,很多搜索结果都是人工智能产生的垃圾,你必须非常有知识才能区分真正的垃圾。未来有很多语言模型的质量可能变得更糟,除非他们找到一种方法来过滤掉那些坏数据。”

放眼未来,Daniel没有对人工智能的发展持悲观态度。“人工智能失控并不可怕,可怕的是人工智能受制于不同目的的人。”比如将人工智能用于战争,在他看来反倒可以减少人类士兵的牺牲,但若被怀揣目的的人的过度使用,确实会造成不良后果。他认为技术的发展取决于其缔造者和使用者。

人工智能语音识别技术,在 Daniel 这样一群可爱又可敬的科研人员的带领下,相信也会取得令人满意的成果。

采访后记

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「2024 全球机器学习技术大会」在上海再度启幕第一站,汇聚来自全球近 50 位在机器学习技术研发及行业应用领域的领军人物和知名专家,携手搭建一个专属于全球机器学习与人工智能精英的高层次交流与分享舞台。

届时,Daniel Povey将作为重磅嘉宾发表专题演讲——《The Current Moment in AI》,采访中未深入展开的深度学习与语音识别发展的议题,都将在大会上进行深度分享和探讨。欢迎访问官网 http://ml-summit.org、点击「阅读原文」或扫描下方二维码,进一步了解详情。