打开网易新闻 查看更多图片

在人工智能的世界,有一群人正深耕于推动通用人工智能(AGI)从科幻走向现实。CSDN、《新程序员》特别策划“AGI 技术 50 人”访谈栏目,挖掘 AI 背后的思考,激荡 AGI 的智慧,走近那些在 AI 领域不断探索、勇于创新的思想领袖和技术先锋们的心路历程。

本期主角曾国洋,年仅 26 岁,8 岁学编程、奥赛冠军保送清华,高三去旷视实习走上 AI 之路,误打误撞成为中国首批大模型研究员,接着在 25 岁这一年成为大模型明星创业公司 CTO。他的身上,散发着典型的技术少年天才的聪明劲儿,一切为了好玩儿,一起从曾国洋的思考和摸爬滚打中,看 AGI 的发展脉络。

作者 | 唐小引、屠敏

出品丨AI 科技大本营(ID:rgznai100)

2022 年 11 月底,ChatGPT 问世,世界很兴奋,但国内诸多 AI 从业者却有些悲观,认为我们离 ChatGPT 距离实在太远,可能至少要在 2024 年的某个时间点才能赶上。此时,刚过完春节的曾国洋,忍不住自掏腰包找人标注了 200 多条数据,一看模型训练效果提升得非常明显,顿时让他一扫阴霾,“让我感觉这个事其实并没有想象那么远”。

曾国洋,这位 1998 年出生的大模型明星创业公司的 CTO,常被冠以「AI 小神童」的称呼。和 OpenAI CEO Sam Altman 一样,也是 8 岁开始学编程。他的身上,颇有 Linus 的“Just for fun”的意味,“厉害”、“酷”、“有意思”、“蛮有挑战”是他若干选择背后的出发点。

年少之时,因为大家都觉得编程很厉害,由此自学电脑走上了编程之路,又从 Visual Basic 转战 C/C++、攻克各种算法;因为听说竞赛挺难,就走上了竞赛之路,高二获全国青少年信息学竞赛金牌(全国 50 人)、亚太地区信息学竞赛金牌保送清华。「我对计算机领域里具有挑战性的事物,向来都是挺感兴趣的」,聊起自己的程序人生,曾国洋的眼神里满是兴奋。

高三时,当同龄人还在熬灯夜战挤过独木桥之时,曾国洋已经蹬着自行车跑去当时的 AI 先锋创业公司实习了,这就是后来以群聚一代天才人物闻名的“中国 AI 四小龙”之一旷视公司。在旷视,曾国洋初尝到了“AI 能解决的问题往往仅靠写代码都解决不了”的甜头,自此正式步入 AI 领域。

后来于大二期间,在舍友的引荐下,他加入清华大学 NLP 实验室,成为中国最早一批大模型研究者,并担任悟道·文源中文预训练模型团队骨干成员。2021 年,曾国洋作为联合发起人创建了 OpenBMB 开源社区,是模型训练加速和推理加速 BMTrain、BMInf 的主要作者之一,也是 CPM-Ant、CPM-Bee 两期大模型的主要完成人之一。2022 年,在清华大学计算机系长聘副教授刘知远的集结之下,愿景为“智周万物”的面壁智能在北京成立,曾国洋自此成为这家初创公司的技术 1 号位。在此之前,曾国洋手里已经拿到了不少的 Offer,最终却都没有去,核心是因为觉得创业这件事儿蛮有挑战性,于他而言,再优厚的条件相比 AGI 征途的召唤都显得无味许多。

AGI、大模型这件事,在他的手里变得格外好玩儿,在公司内部搞了各种各样的 Agent 玩耍。比如,为了更高效地读论文,做了个自动推荐论文的 Agent;为了避免选择困难症,把公司楼下固定会去的比较下饭的满盆香川菜馆的菜单喂给模型,给了些荤素搭配等的要求,生成今日推荐,解决了「今天吃什么」这个难题。

面壁智能,位于五道口的科建大厦,与智源人工智能研究院仅仅是隔一条马路,隔壁是清华科技园,与搜狐网络大厦、东升大厦相离不远。五道口群集大模型,曾国洋说出去吃饭一般都没法聊工作,因为附近友商着实太多。

但大模型公司之间的关系又很难单纯用竞合来言明,清华系占据中国大模型半壁江山,彼此互为师友,智源、智谱 AI 也都参与过面壁的起步与投资。

而从清华 NLP 实验室到如今的面壁智能,对大模型的不断尝试与研究,也取得了不少阶段性的成果。于 2018 年就发布了全球首个基于知识指导的预训练模型 ERNIE,而后相继带来千亿多模态大模型 Luca,更是率先以性能小钢炮 MiniCPM 2B 另辟蹊径抢滩端侧设备。

从初期卷参数量,到现在瞄准「应用落地场景」,我们俨然进入了大模型的下半场。现实中的技术与理想中的应用究竟还差多少,时至今日,我们距离 OpenAI、AGI、技术终点还有多远。《AGI 技术 50 人》和年仅 26 岁、掌舵初创“黑马”面壁智能技术栈 2 年的曾国洋面对面地聊了聊。

打开网易新闻 查看更多图片

8 岁学编程,Just for Fun 的 AI 之路

《新程序员》:你的编程启蒙来自哪里?

曾国洋:我是自己感兴趣,自学开启的。

《新程序员》:是如何接触上编程从而产生兴趣的?

曾国洋:我从小对计算机就比较感兴趣,接触到计算机的时间其实非常早。小时候我的身边,包括我的朋友、老师、父母都潜移默化地告诉我,学计算机、会编程很厉害。那时我就觉得要是很厉害,得学一学。当时其实也都不太懂,只是大家对计算机特别厉害的人有个“会写代码”的概念。

于是我尝试着去学习,从 Visual Basic 开始,最早是在网上各种查资料,也是懵懵懂懂的状态,看不懂代码写的是什么。直到上中学后开始系统性地接触了用 C/C++ 语言编程,越来越多地看一些国内外的资料,尝试写了更多复杂程序。

《新程序员》:一直保持着编程的习惯吗?

曾国洋:我特别喜欢写代码,上大学后也和同学、学弟一起做过很多项目,包括参加学校举办的智能体大赛、挑战杯等等。

但不同阶段确实不一样,对程序员来说,如果在一线写代码,最主要时间都在写代码。而我现在的状态是属于开会、开会、开会。

随着公司人越来越多,也是需要越来越多地做一些沟通上的工作。公司初创之时一直到去年年初时,其实也就只有 10 个人不到,我就还在一线写代码,每天工作特别充实、成就感也很强。

那时候其实也没多少钱,但大家都是在拼命地做模型。去年 5 月份后,公司人越来越多了,但这个时候我就发现要将这么多人有效地组织起来其实挺难的。

现在回过头来看,要训好大模型,对整个团队协作的要求非常之高。

为了训大模型,我们会有数据清理、清洗标注、评测团队,训练 Infra、运维、算法的团队。除此之外,还有各种各样的团队,这么多团队大家得一起协作起来,才能让大模型稳定良好地训起来。

我们也在打造 AI 原生的组织,来更高地适应一家 AGI 组织的高速发展。

《新程序员》:不直接参与写代码,会有些遗憾吗?

曾国洋:还好,当然我有时候也会抽点时间搞点代码到模型上试一试,做些有意思的小事情。既能验证我在大模型上的一些想法,也有可能形成一些有意思的原型,也许就能帮助公司找到更好的落地方向。

还记得我们最开始训模型的时候,公司内部建了一个“CPM 鉴赏群”。

当时我们试着用模型去写小说,每天写一段让大家一起欣赏。现在大家看到的模型多数都是经过对齐之后的模型,这限制了模型自由发挥的能力,我们内部的基座模型当时还没有做对齐,在创作方面的能力远比大家现在看到的更强,效果也特别有意思。

我感觉做大模型有点像发现新大陆一样,你知道有一片很大的空间,但不知道它到底能发展成什么样,究竟有多大。值得确信的是,可以感受到它的未来非常有潜力,我们要尽快地在上面占领到自己的领地,然后进一步开疆拓土。

《新程序员》:最开始是怎么走上竞赛这条路的?

曾国洋:同样也是听说这些竞赛都比较难。我对计算机领域里有挑战性的东西,向来都挺感兴趣的。

《新程序员》:初次接触 AI,你是在进入旷视实习之前,还是之后?

曾国洋:去实习时才接触到的。还记得那是 2015 年,这个时间节点也是恰巧赶上了深度学习引发一波 AI 热潮的尾巴。我个人对 AI 非常感兴趣,因为 AI 能解决的问题往往仅靠写代码都解决不了,这也意味着 AI 可以用来解决一些很有挑战性的问题。2016 年 AlphaGo 的出现,也给我们带来了非常大的震撼。

《新程序员》:实习期间有做出什么让你成就感很大的事情吗?

曾国洋:当时我负责做行人的相关检测。其中让我感受最深刻的是我设计了一个程序,能通过室内摄像头监测,把一个人在室内多个摄像头下的活动轨迹绘制出来,这个项目还是比较有意思的。

不过,在尝试做了多个项目之后,给我最大的感受还是,在不同的摄像头配置、不同的场景下,AI 的通用性其实并没有那么好。那个时候的我,虽然看到了问题所在,但还没办法做改变,那时候还比较懵懂。

《新程序员》:你觉得对自己影响最大的人是谁?

曾国洋:其实对我有影响的人还挺多的。首先,我要感谢我的父母,是他们告诉我要去编程,最初如果没有人提这个东西的话,我可能也不会意识到还有这么厉害的技术。

第二,对我比较有影响的是我的小学班主任。当时我成绩没那么好,也比较贪玩,喜欢做一些学习以外的事情,后来老师单独找到并激励了我,从那以后我才开始认真学习。

第三,中学时期的计算机老师引领我走上了竞赛的道路,我对此也特别感激,因为在竞赛这条路上,我接触到了很多优秀的人,也打下了深厚的算法基础。就是在这个时候,我就开始阅读各种论文,并深入学习算法,也意识到算法才是真正解决问题的关键。此后,我开始系统地学习算法,了解它们的广泛应用,培养了解决问题的思维方式。

第四个对我影响较大的是在 2015 年引我进入到 AI 领域的导师,因为如果我不在那个时候进入,后面就没什么机会进入。

说来也巧,刚好在那一年的冬令营上,旷视在招人,也刚好是那一年,我高中的辅导竞赛老师告诉我有这个事儿,说我可以去试一下。然后,我刚好去试了一下,刚好就通过了,一切都是刚刚好。

《新程序员》:你其实会对有挑战的事情很兴奋。综合起来,你到现在最快乐的时光是什么样的?

曾国洋:我感觉快乐时光还挺多的,毕竟如果一直做自己喜欢做的事的话,每次有产出的时候都会比较快乐。

当然最快乐的时光还是在做大模型之后,第一次让我感到非常快乐的节点是在当时训练完 CPM-1 的时候。那个项目时间非常紧,在做 CPM-1 时,国内还没有人在做大模型,甚至连虚拟大模型的集群都找不到,因为之前没有这样的需求。所以当时我们连夜拉着清华高性能的同学一起努力,将这些资源整合起来。在不到一个月的时间内,我们从零开始完成了一个大模型的训练。训练完之后,效果非常好,也非常有趣。

当时的模型还没有所谓的对齐技术,只是一些文本续写的模型,但它能够写出很好的小作文,甚至可以将你同学的名字写进去。这是我第一次感到非常快乐的经历,也让我坚信大模型在未来有很大的发展空间,非常渴望去继续研究大模型。

第二次让我感到快乐的时刻是在 2022 年 11 月底 ChatGPT 问世后。起初,我们很多人坐在一起讨论如何追赶,最终得出一个“预估需要一年多的时间,可能在 2024 年的某个时间点才能赶上“的结论。当时大家对这个认知还挺悲观的,在 2023 年 1 月份的春节回来后,我自掏腰包找人标注了 200 多条像 ChatGPT 这样的数据,用于我们的模型训练。突然间,模型效果变得非常好,超出了我们的预期,这让我觉得我们离它实际上并没有想象中那么遥远。

创业这两年:从卷参数到效率为先

《新程序员》:不少清华学子本科之后选择了硕博连读,当时你是否考虑过这条路?

曾国洋:我个人还是比较想做一些偏应用落地的工作。

《新程序员》:你当时还拿了一些 Offer,却都没有去。

曾国洋:因为我在大三时已经有了创业的想法。当时其实还没有说要做大模型,但我已经确定下来要创业了。因为我觉得创业这件事儿比较有挑战,直接去工作的话,显得有点枯燥。

《新程序员》:创业下来,感受如何?

曾国洋:有挑战性,压力也会比较大,因为创业和上班不一样。上班是只需要完成工作就可以赚取工资,创业则明显不同,不仅需要思考公司如何赚钱,还需要平衡各种各样的开销、招聘、攻克技术方向、与投资人对接等等。

这对我来说,挑战还是非常挺大的,因为它不再单单是一个写代码这么纯粹的事情。

《新程序员》:现在大模型有很多是来自清华创业的,当时大家为什么不一起做大模型?

曾国洋:有各自的原因,大家可能目标以及现有的情况也不太一样,当时其实也没人想那么多,所以大家都觉得大模型好,你得好好搞。

《新程序员》:你们的首个中文大语言模型 CPM-1 是在哪年发布的?

曾国洋:2020 年 12 月,在智源一个活动的展区里,我们就在一张桌子上放着一台电脑,后面接个显示器,大家围成一圈,每个人在上面模型上随便试,觉得特别有意思。

那个时候,一方面,我们的推理技术还不够完善,无法大规模地对外提供服务。而如今的大模型推理效率提升了几十倍,甚至上百倍。另一方面,也没有人专注于安全相关的工作,我们不敢匆忙发布。

不过,虽然只是一个简单而粗糙的演示,但确实引起了很多关注。

后来到 2021 年初,从我们的悟道项目到华为的盘古项目,越来越多的人开始跟进,在国内掀起了一波大模型的热潮。

最早我们做出来的只是一个 2.4B 模型,和我们发布的 MiniCPM-2B 规格差不多,但那时的 2.4B 模型在 V100 的 GPU 上要过好几秒才能出来几个字。把 2020 年的技术换算过来,还没有现在手机端模型跑得快。

《新程序员》:我看到你将大模型分为类似于大杯和超大杯这样的类别,在此之前,不少 AI 公司都在追求训练更大的模型。

曾国洋:一味地追求模型参数量这条路是走不通的。国内这两年不少人的实践也证明了这一点:2021-2022 年期间,国内很多企业做大模型时开始卷参数量,最早我们做到了 2.4B 参数量,然后行业有人做到千亿、万亿,甚至是十万亿,现在大家都“卷”不动了。越到后面,大家就越容易发现,参数量更大,不代表模型效果更好。

在模型训练中,参数量只是其中的一个变量,还有很多其他变量会影响模型的训练效果。对于面壁智能而言,我们更关心的是效率,这是为什么我们在发布 MiniCPM 时一直强调的事情。大模型的效率会很关键。

《新程序员》:怎么想到效率这个事的?

曾国洋:这也是我回看国内初始阶段“卷”参数量再到 ChatGPT 发布时大家在猜它到底是个多大的模型时想到的。

GPT-3 拥有 1750 亿参数量,大家都在猜测 ChatGPT 会不会是个万亿规模的模型产品,但实际得到的消息是——它大概有几十 B,比 GPT-3 更小,但是更小参数模型可以达到更好效果。

这就像起初我们“卷”参数“卷”下来,其实还是没达到 ChatGPT 的水平。在大模型中,我们不应该一味地追求参数,而应该追求更高的模型效率,更优化的智能训练配置,用更小的参数量达到更好的效果,用更低的成本干成更大的事。

“百模大战”的下半场拉开帷幕

《新程序员》:现在各大厂商几乎都有了自家的大模型,“百模大战”的下半场其实就进入到了 AI 原生应用阶段,但不少人都觉得迷茫,有一种“拿着锤子找钉子”的感觉。

曾国洋:我认为要做应用,如果没有一个专门的模型团队来支撑,将会面临相当大的挑战。因为如果完全依赖外部的模型,你的核心能力将会受到很大限制,因为这些模型是由外部团队控制的,而非由你的团队掌控。

《新程序员》:这意味公司要有一个自己的模型,然后从模型到应用?

曾国洋:这是我的感受。当无法训练模型时,情况就会变得相当痛苦。

我日常会进行一些有趣的探索,比如验证我们现有的模型是否能够满足要求,以及我们与目标之间存在多大差距。如果差距不大,可以进一步推广应用。这种探索不仅能指导模型的进化方向,还能给应用带来新的想法。

《新程序员》:我理解的是做应用的人肯定会比做模型更多的,很多应用开发者会直接选择第三方模型。另外,自己做模型成本很高,大部分公司会没有办法负担成本。

曾国洋:这也是对于应用开发者来说比较麻烦的事情。就像在 ChatGPT 推出之前,许多应用都是基于 OpenAI 的 GPT-3 构建的,但随着 ChatGPT 的推出,很多应用就被淘汰了。

当你的核心能力依赖于第三方模型时,确实会遇到这些问题。现在的技术进步还没有遇到瓶颈期,迭代非常快,这就造成你现在基于一个已有模型做的一些小突破,很有可能被下次技术的迭代时就被覆盖掉了。

《新程序员》:那我们该怎么形成自己的壁垒?

曾国洋:壁垒的种类多种多样,可以分为短期、中期和长期。

  • 短期壁垒主要是技术层面上,例如,比别人更快地实现某一步骤,从而在短期内获得更好的效果。

  • 中期壁垒可能涉及数据方面的优势,在有短期壁垒和用户基础上,可以通过数据反馈来获得优势。

  • 从长期来看,除了技术和数据之外,最终还是需要在产品上建立壁垒,譬如拥有庞大的用户群体和良好的商业模式。

仅靠技术和数据很难构建更持久的壁垒,因为技术会随着人员流动而流失,数据的边际收益则会递减。所以先建立短期、再建立中期和长期的壁垒。

《新程序员》:当前大家对生成式 AI 应用更多的是在尝试的阶段,还没有爆款应用落地。你对这一块的见解和观察是怎样的?

曾国洋:我认为当前的技术模型正在快速迭代,现在没有并不代表将来没有可能。有可能是基于现有技术,有人想到了一些可以实现的想法,但目前的模型还无法实现。也可能有些创意是大家还没有想到的,而且技术仍在快速演进,所以尽管现在无法实现,但我相信未来一定会有可能实现。

这种限制可能存在于几个方面。一方面是模型能力的限制,另一方面是成本问题,许多有趣的应用可能成本过高,这也会阻碍创业的进行。

这段时间有一个叫做“哄哄模拟器”的项目就很受欢迎,然而,正是因为成本问题,一旦用户量上来,成本有些兜不住,没有办法形成一个正向可持续的商业模式,就会出现问题。

不过,我觉得这一切也是向着更好的方向在发展,现在大部分越来越强的模型,价格变得越来越便宜,成本越来越低。就像几年前我们构建的 CPM-1,到现在用同样规模的 MiniCPM 其实能达到一个以前想都不敢想的效果。

《新程序员》:当前所有的大模型都是用 Chat UI 的方式,对于做应用而言,你认为大模型会为 App 形态带来什么样的改变?

曾国洋:提到 Chat UI,让我想起来听到过的一个更有意思的想法,叫做 AI UI,即 AI 生成 UI。现在所有的 UI 其实都是程序员预定义好的,但是对话只是纯文本形式,如果能让 AI 生成 UI,譬如订个票,就可以直接让 AI 生成订票的界面,我觉得这是可以实现的,但是还没人在做。

从我的角度来说,AI UI 可能是个好的方向。

《新程序员》:这意味着过去程序员是为了实现某个工具,人工去写代码,未来是否有可能程序员就为了 AI 去写代码?

曾国洋:也不能叫为了 AI 写代码,我倒没想好具体程序员会干什么,但是我觉得如果能做成那样的话会非常酷。倘若做成了,以后手机操作系统就不需要搭载一堆 App,只需要告诉 AI 你所需要的东西,它可以直接现场生成一个 UI。

《新程序员》:你觉得还需要手机吗?是不是有更好的终端?

曾国洋:有可能会有更好的端,但是这些形态我也还没想好会是什么样子的。只是未来交互往这个方向发展,肯定会非常有意思。

打开网易新闻 查看更多图片

端侧大模型的新机遇与挑战

《新程序员》:端侧模型是否需要硬件厂商加入专用 AI 芯片,面壁智能模型在这方面是怎么做的?

曾国洋:我们发布的 MiniCPM 2B 是能跑在 CPU 上的模型,可以带来一个之前大模型没有的空间。以前的大模型需要跑在有 GPU 的设备上,而这样的设备少之又少,也不难想象,大部分的电脑可能都没有可靠的 GPU。

作者注:技术变换真是格外有意思,2013 年,AlexNet 作者 Alex Krizhevsky 来到 Google 时,他发现他们现有的模型都在 CPU 上运行。他觉得需要 GPU。于是他自己买了一台 GPU 机器来训练,这让 Google 意识到他们需要 GPU,而且是很多 GPU。于是,在 2014 年,Google 决定购买大约 40,000 个 Nvidia GPU,花费了约 1.3 亿美元。十余年后的今天,当算力成本高居不下之时,在 CPU 上运行模型,成为了一大方向。

现在像 MiniCPM 这样的模型能在 CPU 上运行,这意味着几乎所有的手机、电脑都可以直接运行。如果一个模型可以在 CPU 上运行,那么它就可以嵌入到各种应用程序中。

作为应用程序开发者,你无须关心用户到底有没有 GPU 设备,只需要把大模型嵌入到应用程序中,使其具备智能能力。此外,像 MiniCPM 这样的模型规模也不是特别大,占据的内存大小约 3-4GB 便足以。我认为效率还是相当不错的,它适用各种应用场景,也可以随着应用程序一起发布。

《新程序员》:这属于让人人都有能力自己训练、运行模型。

曾国洋:对。MiniCPM 的规模相对较小,每个人都有能力微调它,也有能力让它运行起来,甚至将其嵌入到各种应用程序中。

《新程序员》:发布这样模型的目的是什么?

曾国洋:对于 MiniCPM 来说,我们关注到大家对于端侧模型其实持有期待。我们也希望通过这个开源模型,让大家首先有一个比较好的基础开展工作,其次我们也希望在此技术上进行业务探索。

《新程序员》:我看到其他做端侧大模型的公司,基本上都是因为自己是一个手机厂商,如小米、OPPO、三星等,他们研发大模型是为了直接集成到自家手机的系统层,面壁智能端侧大模型的机会在哪?

曾国洋:我认为每个人对此的看法可能不太相同。我们发布 MiniCPM,一方面是为了证明我们的能力,另一方面也是因为目前在端侧缺乏一个非常强大的开源模型。

通过查阅现在行业的一些评测结果,相信大家也发现,在端侧实现与大模型相同效果并不是那么容易。

此外,我们认为在端侧还有很多工作可以做。初步判断未来 1-2 年的时间里,我们可以在手机上运行一个与 GPT-3.5 相当水平的模型,这将带来很多机会和挑战。

《新程序员》:国内不少人正在使用 LLaMA 等开源模型,吸引更多的人使用面壁智能模型的契机是什么?

曾国洋:这个实际上涉及到商业化方面的考虑,也包括我们为什么要从事这项工作。

对于核心模型而言,作为一个开源方案,能够实现可复用和通用性是非常重要的。因为如果每个应用都使用大模型,而每个人都在手机上运行这些大模型,手机的存储空间将会不够用。因此,如果我们能够有一个被广泛认可且具备良好技术能力的开源模型,实际上可以很好地解决生态系统方面的问题。这样做将有助于推动生态系统的发展,同时也能够满足各个应用的需求。

《新程序员》:在实际做模型时,你为什么尤为关注成本问题?

曾国洋:一方面是有历史原因,我们是国内较早做大模型的,经过一段时间的实践也可以发现有些堆参数量的模型其实效率做得并不好。虽然它们能够达到一定的效果,但是与其投入相比,它们的价值并不那么高,不够划算。对于大模型应用而言,我们关注的主要是它们的价值和成本,越高的效率意味着它的价值越高,成本越低,而在价值和成本之间就是它的商业化空间。

另一方面,与其称之为把成本做低,不如叫做把效率做高。对于模型,除了 C 端用户会关注,当模型的用户量逐渐提升后,B 端客户也会关注。这一点至关重要,因为如果不考虑模型规模化,现在的技术可以训练出拥有数万亿参数的模型,但这样规模的模型虽然能够取得良好的效果,但它的应用成本会特别高,导致没有人能把它用起来,带来不了什么价值。

OpenAI 在成本、效率方面已经做得非常出色。GPT-3.5 之所以现在能有这么大的使用量,一方面是因为它效果好,另一方面也是因为它成本足够低。可以想象,假如 GPT-3.5 是 GPT-4 的成本的话,估计就没有这么大的使用量了。

《新程序员》:AI 发展几经起落,每个阶段都会遇到一些瓶颈。这一波 AI 是否会遇到与之前相似的问题?

曾国洋:我觉得技术的发展会遇到瓶颈是很常态的事情。研究过程中,如果技术没有任何瓶颈就可以一往无前,也不太符合现实逻辑,但是遇到瓶颈也不是什么大问题。

就当前而言,AI 技术还有很多事情可以做,国内外各家模型也在快速迭代,暂没有什么太大的瓶颈。

Sora 只是量变,ChatGPT 才是质变

《新程序员》:之前看到 OpenAI 发布的 Sora,你有什么样的感受?

曾国洋:没什么特殊,我觉得很正常。因为我其实之前也看过很多文生图、文生视频相关的工作,Sora 最惊艳的点其实在于它能生成一分钟长的视频,但这个在我看来只是带来了“量变”,而 ChatGPT 的出现带来的其实是“质变”,因为在这之前没有一个这么智能的 Agent。

在我看来,Sora 之后能带来的质变也许是它真的能够去生成一个没有任何瑕疵的电影,但这个事儿有点难。包括前面我提到过,我试图用大模型去写小说,但为什么最终没有发布呢?原因也在于大模型在进行长篇生成时很容易出现瑕疵。每个细节看上去都非常出色,但整篇文章串在一起却发现逻辑不通。

如果你仔细看过 Sora 官方的示例,也会发现有很多瑕疵。如果能把这个问题解决了,Sora 才可能带来一次质变。

《新程序员》:对此,你有什么解决方案吗?

曾国洋:还没有,如果有的话,就去做了。

《新程序员》:许多人认为 Sora 的实现让我们离通用人工智能(AGI)更近了一步,你怎么看待?

曾国洋:Sora 肯定对某些事情产生了影响,它实际上是一个能够理解一些现实物理规则的模型,这证明了视频数据中包含的信息有助于模型理解现实物理规则。

就实际工作而言,我认为 Sora 并没有直接推动大模型朝着通用人工智能(AGI)的方向发展,但从研究角度来看,它确实具有很多价值。

《新程序员》:每当 OpenAI 推出新的技术或产品时,都会引起一场冲击。之前有些创业团队已经投入了大量资源进行的开发,随着 OpenAI 的某个新发布可能就会遭到淘汰。对此,我们的下一步应该怎么做?

曾国洋:首先,探索是必不可少,这是研究性工作的本质。大部分进展都是通过探索获得的,而非凭空产生的。

由于研究工作具有阶段性要求,就像楼房一层层建造,版本逐步迭代一样。举例来说,就像苹果为何不直接发布 iPhone 10 一样。前期的工作是必不可少的,因为它们帮助验证结果,同时也为获得进一步的支持奠定了基础,让你能够继续进入下一个阶段。

《新程序员》:曾经一度,很多厂商将智能音箱等视为智能的入口。如今随着大模型等技术构建起的智能生态系统发展,这与过往有哪些不一样?

曾国洋:对于传统技术来说,通常是基于程序来执行用户指令,这样的方式在智能能力上存在一定的局限性,总会有一些覆盖不到的情况。

相比之下,AI 可以实现更多任务、更加智能以及更具个性化。举个例子,当你回家时可能需要打开灯、空调等设备,传统方式需要专门编写相应的适配程序来满足需求,无论是编写代码还是使用低代码平台,都需要开发者进行开发。但是对于 AI 来说,可以直接通过自然语言处理实现自动化。这便是一大差异点,即智能化的程度不一样。

另一点可以思考的场景是,未来不仅家庭设备智能化,而且外部的各种公共设施也有可能实现智能化。

此外,设备或许只是一方面,Agent 的概念其实会更广泛一些。比如说很多应用的功能可以作为一个 Agent 的形态而存在,它可以连接到一些甚至不在你周围的事物。

《新程序员》:列举一个你能想到的应用场景?

曾国洋:假如我们正在开会,我可能想到一个东西,准备演示给你看。在大模型+Agent 趋势下,我也许通过一个智能终端可以直接在电视上演示出来,演示的时候不一定需要有特定的 App 为依托,而是电视可以直接做一个智能 Agent,它可以接收一些指令直接进行演示。同时,所演示的内容也可能来自于另一个地方,比如我在网盘上存储的一篇文章等等。

《新程序员》:苹果发布的 Vision Pro 依然属于一种头盔式设备形态。按照你所想象的,你认为未来结合大模型、Agent,类似这种的设备会成为智能入口吗?

曾国洋:我认为 Vision Pro 始终是一个设备。我的理解,未来会有一种智能,可以打通不同系统,更了解用户,更加智能化。按照这种想法,其实万物都可以成为智能的入口,可以是你的手机、手表,甚至是电视。

《新程序员》:大模型和 Agent 研究的进展取决于哪些方面?

曾国洋:一方面依赖于模型的效率,我们要把模型做得更好。另一方面取决于数据,因为要使模型能够像人一样工作,需要提供特定的数据对其进行训练。

与之前 ChatGPT 对齐相比,Agent 对齐是一个更高难度的数据对齐。ChatGPT 只需要理解自然语言命令即可,而 Agent 需要理解用户指令,能和现实环境交互,在交互中理解现实环境给的反馈。

《新程序员》:在 Agent 方面,面壁智能有哪些值得分享的新进展?

曾国洋:目前,我们也在研究诸如 Function Calling(函数调用)等功能,也取得很多阶段性成果,近期也开始投入很多精力在尝试用 Function Calling 来解决各种问题上。

《新程序员》:行业很多公司在 AI 布局上,我发现大家看的方向似乎都聚焦在了多模态、Agent、具身智能。

曾国洋:有可能是这条路确实是大家都很认可的,因为我感受这条路线应该是通向 AGI 跑得通的模式。

《新程序员》:这样的话,其实这条路的竞争很激烈。

曾国洋:也不一定意味着竞争很激烈,因为要把这条路跑通有很多未知的事情。大家目标是一致的,但过程不一定完全是一样的,要走到这条路的终点,一方面要做研究,另一方面对于公司来说必须要活到那个时候。

《新程序员》:核心的差异化是体现在路径上?

曾国洋:我觉得路径可能是差异化的一种表现。就像一个通用 AGI,也许有人先做的是它的某种能力,有的说是另一种能力,大家其实都能活下来,但是最终也会殊途同归,因为大家最终目标都是一样的,就是我们要做创造者。

《新程序员》:对于面壁智能而言,路径是什么样的?

曾国洋:实际上与大家的认知相差并不太远。目前,我们已经拥有了一种基于文本的智能模型,并且接下来的目标是使其与人类对齐。人类可以支持更多的输入和输出模态,包括视觉和听觉等多种模态。我们也希望我们的模型能够支持各种模态的输入,并产生不同模态的输出。

此外,我们正在努力实现模型自主行动的能力,比如模型能够使用工具甚至能够直接的和世界交互。在和世界交互的过程中不断的学习和强化自身。在这个基础上,把模型应用到实际的硬件上,以形成自身的指标,并使其能够自主地进行探索和便捷的交互。在这种探索中,模型将通过增强学习不断提升自身。

最后,一个关键的问题是人类记忆与当前大型模型的机制并不完全一致。这也是我们面临的挑战之一,如何更好地模拟和应用人类的记忆机制。

《新程序员》:这可以理解为当前大模型是以 GPT 为代表的,更多承担的是大脑的角色,后面逐步跟上技术发展,然后长出了手脚,最终形成了具身智能。

曾国洋:对!最终再到在计算智能和环境交互,自主探索、自主强化,最终变成一个通用的人。

《新程序员》:这是你想的 AGI 的终极未来吗?

曾国洋:这是一个大概的路径,大家想的也不会差太多。

《新程序员》:之前很多人说人工智能一定要是做成跟人一样吗,你怎么看?

曾国洋:做成跟人一样,其实这个问题我也想过。它会有一定好处,现在所有生活中的各种设施,都是以人为接口的,比如我们有手机,它是因为人有手;有电视,是因为人有眼睛;电视上有开关,其实是因为我们手能触碰到开关。

生活中各种东西都是与人对齐的,所以做一个和人一样的智能,它能更好地利用人类已有的基础设施建设,同时也能更好地和人做交互。

Transformer 不是未来模型架构的最终形态

《新程序员》:时下,你关注的核心命题是什么?今年最大的目标是什么?

曾国洋:今年,我们计划在多模态方面进一步发展。目前我们的模型主要是基于文本的,但我们的目标是为其添加更多模态的能力,希望将模型的能力提升到甚至超越人类思维的水平,并更好地落地到更多场景上,让大家用起来,我们也能获得更多的反馈,才能了解用户需求、知道模型哪些做得不好。

《新程序员》:多模态要解决的最大难题或挑战是什么?

曾国洋:其实最大的挑战是确保效果,效果好是我们的目标。在如何提升效果方面,主要的挑战在于数据。

在技术方面,我认为我们已经相当成熟了。就文本而言,我们已经有了多年的积累,数据相对充足。但是在涉及多图、多文本等多模态数据方面,我们却面临着数据匮乏的情况。这种数据的数量总体来说要少得多,而且标注好的数据更是少之又少。在这种情况下,让模型更好地理解并在多模态场景下执行人类的指令,实现多模态工作,变得更加困难。

《新程序员》:依托数据驱动的背后,面壁智能的数据核心竞争力是在哪些方面?

曾国洋:我们会有很多巧妙的方法。毕竟训模型也训了很久,对于数据如何收集,哪些好数据,以及如何凭空的造出一些数据,其实都是比较有研究的。做大模型很重要的一方面就是数据能力,我们肯定有更多自己的东西。

《新程序员》:在技术演进周期中,OpenAI 在 ChatGPT 之前也对包括强化学习等技术进行了大量探索。人工智能的爆发并非一夕之间崛起的,实际上在很早之前很多人就投入研究了。面向当下引发热议的 AI 技术,你认为有哪些是非常关键的但可能被忽视的方面?

曾国洋:我觉得可能是未来的模型架构。虽然有一些人已经开始关注,但似乎还没“出圈”。在学术界,有很多新的研究工作,大家也会关注到,但 Transformer 似乎不会是未来模型架构的最终形态,因为它与人类思维机制还存在一些差异。

对于人类而言,思考模式不像 Attention 那样在一个长的上下文中查看之前产生特定 Token。因此在这种情况下,模型架构还有许多可以改进的地方。

《新程序员》:当前,多数人都在使用 Transformer 架构来构建模型。倘若这种方式发生变化,肯定会引起一场新的重大变革。

曾国洋:确实。现在其实已经有不少新的架构提出来,如 RWKV(Receptance Weighted Key Value,通过引入线性注意力机制,实现了类似于 RNN 的序列处理能力和 Transformer 的并行训练能力)、RetNet(一种非 Attention 机制的文本处理方式)。

过去,非 Attention 结构的模型在扩展时存在一个主要问题,即效率不及 Transformer。简单理解,这种结构的模型随着参数的增长,它的效果会有一个增长曲线,非 Attention 结构模型的增长曲线不如 Transformer 更陡峭。

之前,大家对这类模型的关注较少,但现在越来越多的研究已经促使这些模型的效果与 Transformer 基本逼平,甚至有些还能做得更好。对于这类新模型,未来我们也会更多地关注其是否能展现出更像人类记忆和思考的逻辑。

时下,Transformer 难以解决许多人类所具有的能力,比如工作记忆,当人类在做同一件事之后,会越做越熟练,然而在 Transformer 中很难表达这种能力。又比如说空间记忆,当人类第一次去一个地方时,可能会迷路,但经常去之后,你能在空间上熟知如何找到更近的路。对于这种记忆,Transformer 很难去处理,自然也就存在一定的缺陷与不足。

《新程序员》:很多技术人认为,技术的终点就是 GPT 实现自我进化的时候。

曾国洋:我认为自我进化可能很快就会实现,但即使达到自我进化之后,它的能力也会受到功能边界的限制。

比如,当 AI 能够自我进化,但无法输出控制信号时,它的能力就受到了限制。它可能在文本领域表现越来越出色,但是如果需要控制机械臂等实际操作,它就无能为力。因此,尽管进化可能会让 AI 达到更高的高度,但在功能上仍然有许多挑战需要解决。

我认为今年 AI 领域可能会在文本自我进化方面取得一些进展。因为像 OpenAI 这样的主流模型已经比较成熟,在这个基础上,如果我们让模型自主探索、总结经验并进行自我学习,就有可能实现自我进化。

《新程序员》:你认为技术的终点会是在哪?

曾国洋:我之前还想过,也许未来要强到一定程度之后,就可以让 AI 来帮我们做研究。

随着技术进化越来越快,终点在哪里,我也不知道。这个技术也许对人类来说是有终点的,但对真正的科学来说,不知道在哪。

之前很多人讨论 AI 技术会呈现什么样的发展曲线,其实它不是简单的一个指数型曲线。我认为它会先快速上升,达到一定程度后会有边界收益递减的情况,进而会达到一个临界点,到达临界点之后又变成指数上升,这个临界点其实就是技术的终点。当 AI 能够完成人类研究工作时,它就能够真正实现自我进化。

《新程序员》:除了成功的经验外,我也经常看到你分享一些失败的经验。大模型训练失败也是时有的事情,对此你有什么样的解决方案?

曾国洋:相当于程序员执行回滚操作一样。我之所以经常分享失败的经验,是因为在实验性研究中,失败的经验往往比成功的更重要。

最初,公司的一些算法同事习惯于只记录成功的经历,但在我批评后开始记录失败的实验。实际上,当实验失败时,我们需要花费一些成本去分析,找出问题所在,这有助于更好地理解模型。当你对模型有了深入理解后,无论你如何操作,都会取得成功,因为你已经对其了如指掌。当模型的表现与预期不符时,你才会遭遇失败,这时才是提升的机会所在。

《新程序员》:当你失败时,就直接进行版本回滚吗?

曾国洋:方法有很多,失败也需要根据失败原因来看,但回滚操作必须基于一个良好的版本,然后绕开失败的部分进行修正,这是必然的。

大家最常遇到的训练失败,比如 loss 不收敛,而造成这种情况的原因有很多,如超参数选择不合理,以及模型数值稳定性的问题。举个例子,在训练数据中存在一些固定的模式,在数据中出现“a”后面一定是“b”的情况,模型会倾向于学习将参数值增大以提高预测准确率。然而,当参数值增大到一定程度时,数值稳定性可能会受到影响,导致模型崩溃。

此外,数据中可能包含一些脏数据,这些数据往往是一大堆重复的或者不符合通常数据分布的数据。这些脏数据可能会对模型造成冲击,引发一系列问题。

《新程序员》:去年很多人投入了大模型创业浪潮中,走着走着后面也会有一些收购案件,导致大模型行业整体格局发生一定的变化,对此,你怎么看?

曾国洋:我认为大模型能做的事其实特别多。它与之前出现的诸如 Web 3、元宇宙等技术有所不同,大模型不是针对某一个领域的技术,它是一项通用的技术,能服务于所有领域且商业化空间特别广泛。

我对于它的发展持乐观的态度,因为大模型能做出来特别多应用。所以,在大模型的领域应该会有不少的公司能够活下来,而不是会最后形成就只有一家或几家存活下来。

《新程序员》:你觉得活下来,面壁智能在里面占了几重。

曾国洋:我很有信心。

《新程序员》:你的信心来自于哪里?

曾国洋:一方面是来自于我们现有的团队,大家对大模型、最终的 AGI 使命都非常认可,也是非常投入在大模型的工作里,我们也逐渐取得了很多有效的阶段性的产出。

第二其实也是在人员上,大海(李大海,面壁智能 CEO、知乎 CTO)加入之后,我们不仅在学术上有比较强的能力,在商业经营相关的方向也吸纳了一大批比较专业的同事,他们有丰富的上市公司经验,我还是很有信心的。

采访后记

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「2024 全球机器学习技术大会」在上海再度启幕第一站,汇聚来自全球近 50 位在机器学习技术研发及行业应用领域的领军人物和知名专家,携手搭建一个专属于全球机器学习与人工智能精英的高层次交流与分享舞台。

届时,曾国洋将带来他及面壁智能在 Agent 方面的最新思考及实践。欢迎访问官网 http://ml-summit.org 或扫描下方二维码,进一步了解详情。