编辑部 整理自 MEET2025大会
量子位 | 公众号 QbitAI

对于AGI,大模型六小虎之一的智谱有自己的理解,他们把AGI分为五个等级:

  • 第一级是语言,智谱“已经做得非常不错了”;
  • 第二级是对复杂问题的求解,可以看到o1水平模型能力出现;
  • 第三级是使用工具,比如自主智能体不但能够通过API,还可以像人一样操作手机、PC甚至汽车的界面来获取信息;
  • 第四级是自我学习;
  • 第五级是超越人类,AI将具备探究科学规律、世界起源等终极问题的能力所以通往AGI之路将是一个清晰和明确的链路。

本次量子位MEET 2025智能未来大会上,智谱COO张帆热情分享了智谱大模型的发展、应用、商业化发展、未来方向,以及企业和个人的科技战略构建。

打开网易新闻 查看更多图片

为了完整体现张帆的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • 大模型天然是一个应用导向的技术;
  • 一条曲线是能力上升,一条曲线是成本下降,带来技术能力快速地落地和应用;
  • 通往AGI之路将是一个清晰和明确的链路;
  • AI开始变成基础生产要素;
  • 意识到模型的技术效果不及预期不难,难的是找到“怎么能行”的一条路;
  • 大模型的文本模型成为你的大脑,多模态模型成为你的眼睛,自主智能体模型成为你的双手
  • 模型场景越来越从浅水区进入到深水区;
  • 不管基座模型是国内的、国外的,开源的、闭源的,合适的才是最好的。

以下为张帆演讲全文:

2年时光飞逝,铺开一个迅猛发展的大模型时代

大家好,非常高兴今天有机会能够跟大家做一些分享。

智谱算是在国内最早做大模型商业化的公司,我们在过去的一两年当中也走了很多弯路,踩了很多坑,有一些成绩。今天希望跟大家分享一下我们在商业上面的一些思考,大模型如何跟商业能够应用起来。

其实我觉得今天大家经常会有一个问题,大模型是不是变慢了?是不是已经到瓶颈了?是不是增长得不够快了?

我们在开始的时候可以简单做一个小的回顾,看看过去的两年间到底发生了什么。

首先一点,大家可以看到在早期的时候,ChatGPT发布后只用了两个月的时间,全球用户就过亿。这是一个前所未有的现象级增速,比人类历史上所有技术进展速度都要快——电话用了75年才达到这个成就,这是一个直接进入到应用的技术。

它也不像其它很多技术,一般来说,技术往往都是先有一个概念,然后从这个概念出发,不停尝试让它一点一点落地,最后落实。

今天的大模型不太一样,我相信绝大多数的各位都不是先知道了这个概念,而是先知道了某一款应用。所以大模型天然是一个应用导向的技术。

很多分析都提出,生成式AI进入市场的速度远比互联网和PC要快,并且在过去两年间,整个模型带来了非常大的变化。

模型能力飞速提升

以一个计算基准来看,仅仅2年时间,整个模型的行业水平就从60分涨到了将近90分。通常而言,低分段涨分容易,高分段涨分不容易。但仅仅用了两年时间,智能就提升了这么多。

与OpenAI的折现轨迹相比,能看到智谱基本上跟紧上了国际步伐。

再说上下文窗口。我记得去年刚开始做模型商业化的时候,基本标配是4K基本,现在100万才是基本门槛,甚至很难算是合格的能力。今天很多模型窗口都达到了100万、200万字,能装的东西已经非常多了。

我们也能看到一系列从单一模态到多模态、从文本模型到多模态模型,甚至是自主智能体模型等等的现象出现,模型的能力变得越来越丰富。

这一切仅仅用了2年时间。我们回想移动互联网时代,iPhone发布两年之后,真正的杀手级的应用都还没有出现。

但是在今天,模型发展已经非常快,从各个方位上都全面得到了提升。

模型成本极速下降

与之相对应的是模型成本的下降,且无论是国内外。

连OpenAI也降低了几十倍,并且还在持续下降。

国内更是如此。记得去年刚刚开始做商业化的时候,智谱当时还是5毛钱1000个tokens,但今天最低已经到了5分钱100万个tokens——这是1万倍。

也就是说,在过去两年间,这个市场降价降了1万倍,能力变得比原来更强。

一条曲线是能力上升,一条曲线是成本下降,带来的是什么?

带来技术能力快速地落地和应用,这是背景。

通往AGI共5级阶段,路径清晰,方向明确

这个过程当中,有这样一个背景。那么,未来往哪去?大家更常会问,我们今天到了哪一步。

之前OpenAI发布了对于AGI目标能力的分级,智谱也给出了一些自己的理解。

我觉得这个路径还是比较清楚的:

第一级是语言。我们已经做得非常不错了,基本上可以通过图灵测试。

第二级是对复杂问题的求解。可以看到01这样的能力出现,让我们对模型的应用类似从「大脑的系统1」转化为「系统2」,从简单直觉的回答,变成了能够深度性的思考和拆解。

第三级开始使用工具。过去回答复杂问题的时候,不但需要能直接做深度的思考,还需要能够跟外界持续地交互获取信息。我们之前做了很多像Function calling(函数调用),如何在过程中把需求转化为一个请求,通过API的方式取外部的数据,类似于这样的方式补充内容。

也有包括像我们自己发布的自主智能体,不但能够通过API,还可以像人一样操作手机、PC甚至汽车的界面,从里面获取信息。

第四级是实现自我学习。AGI已经不满足人们谈论和探索的空间了,已经开始讨论ASI了。如果把人类的智能作为基准,而技术机器的智能在逐步上升。

随着人给它标注数据,技术机器智能的曲线值逐步提升,某一天达到了人类的智能这条线,我们该怎么标数据?它怎么获取更多的知识?

今天还有很多谈论,已经看到了ASI和Super Alignment的初步进展,我觉得在今天看起来,这几步还是或多或少都有了一些进展的。

在这里面,智谱也不断地探索和丰富模型的能力,从最开始的语言能力,到L2的复杂问题的能力,到工具能力,以及现在正在试图去解决的第四级别的GLM-zero和GLM-OS等能力。

第五级还没有非常明确的定义,但是方向在那,是超越人类,AI将具备探究科学规律、世界起源等终极问题的能力。

AI开始变成基础生产要素,带来商业底层变化

这一次,大模型不只是带来了技术上的变革,与以往相比,也带来了更多在商业上的可能性。

在移动互联网时代,所有的任务都是独立的,你需要从很多种算法中挑一种做实验,解决一个小问题,比如分词、词性标注、实体识别等。

那个时候,使用AI的门槛的成本是很高的,所以只有那种高杠杆的业务才能应用,比如搜索引擎、推荐引擎。也就是说,只有那种上千万、上亿的人在应用,且边际成本几乎为零的应用,大家才能够去用AI。那个时候基本上只有互联网大厂在应用AI。

到2013、2014年神经网络成熟之后,某种程度上,算法层被统一了,大家不用学各种各样的算法了。

所以一定程度上门槛有了第一次普惠化,成本也下降。这样的结果就是AI能力开始进入到产业跟行业。

而今天,从算法到模型,到数据,再到任务,整个大模型几乎把一切都统一。

再加上有Zero-shot和Few-shot的能力,我们从针对一个任务去训一个模型,变成可以直接去应用模型了。

它不但带来了更强大的能力,还让我们模型的生产成本比原来下降了至少两个数量级,可能100倍。

原来做一个什么样的简历抽取,不搞上几个算法科学家,搞上半年,根本搞不定,但几百万经费就出去了;但是今天来讲,借助大模型,一个运营的人员,一个产品的人员,哪怕不会编程,基本上可以花上一周就能解决这个复杂的问题,并且效果还不差。

在这样的背景下,AI开始变成基础生产要素,这就导致带来商业底层的很多变化,此外,上层的变化,包括工作方式、组织形式、商业模式甚至每个企业的壁垒,可能都会发生变化。

从智谱模型矩阵发展,看应用AI和AI应用的未来

接下来可以跟大家分享几个最新的模型方面的进展。

首先,今天的智谱有非常完备的模型矩阵,包括语言模型、代码模型、多模态模型、超拟人模型,到自主智能体。

语言模型方面,既有可以跑在PC、汽车、手机等设备上的端侧的模型,也有开源或商用的模型。这一点代码大模型也是一样。

多模态模型方面,各种维度,从文生视频、视频理解、文生图像、图像理解等,智谱都有多方面的矩阵,能够满足用户不同需求。再包括智谱还有拟人大模型、心理大模型,以及自主智能体。

这两天Sora Turbo刚发布,大家都觉得里面有很多地方还不够完美,我觉得这非常正常,因为这是一个很早期的技术。

找到它哪不行,这件事不难,我们大家都可以批评它;很难的是找到怎么能行的那条路。

其实在GPT-3时代,就有像Jasper这样的公司,一年有几千万美金的ARR。所以能够找到模型与业务的最大公约数,是我们今天做商业化里面的一个重要环节。

智谱最早的多模态模型,其实也是最不完善的版本,只是把莫奈的名画动起来,然后拼了一下,还是会有一些穿帮的地方。但是本质上来讲,已经足以帮助旅游局做一个小宣传片。

今天用大模型来做这样一个视频,成本就10块、20块,成本极低;但如果用CG来做,没一两百万做不下来。

与此同时,我们看到了未来对于内容生成应用的可能性

对于一段视频,以前用CV的方式,很难做泛化性理解,今天的大模型在几乎不训练的情况下,可以很好地回答视频里的人在干什么?有没有精彩时刻?精彩时刻在多少秒?

还有一些端侧模型方面的激战。之前在高通骁龙峰会上,智谱联合他们联合发布了demo,在8Gen4手机上完全可以驱动一个多模态的模型实现很好的效果。并且,智谱构建了非常完备的端云一体化的同源解决方案,可以让用户在设备端很好地应用大模型的能力。

再比如视频通话,大家可以一边对话,一边在视频里跟AI做交流。最早是OpenAI在5月发布了这个功能,但其实没有真正让终端用户用起来。在今年8月,智谱已经把这个功能全量发布在智谱清言上了,大家可以去尝试。

自主智能体,能够让AI自动化帮你完成多达几十步的,甚至跨应用的复杂任务。大模型的文本模型成为你的大脑,多模态模型成为你的眼睛,自主智能体模型成为你的双手,不但能够帮你做思考,还能帮你做执行。

智谱也提供了一整套的方案,可以帮助开发者更轻松地训练一个私有模型,也可以基于模型的能力快速开发一个智能应用,可以帮助大家来解决行业实践。

大家使用模型的场景越来越多,越来越从浅水区进入到深水区——

2年间,大家的需求从“有一个模型”,到“模型帮忙提升产品指标”,到今天“模型就要带来业务结果”,从各个方面来看,大家对模型的应用需求和实践变得越来越务实,确实让模型已经开始从智力生产变成生产力。

快速讲几个例子:

我们在汽车上可以非常好地重塑智能驾舱体验;一些非常复杂的垂直领域,比如公积金相关的复杂的问答,或逻辑推理等很多场景里,或企业内部的Chatbot自动化的问数生成Circle的能力,用智谱模型都有做不错的效果。

最后跟大家探讨一下大模型时代,企业或者个人该如何去构建自己的科技战略。

我觉得这里面关键来讲四个要素:

选择合适的基座,要构建与战略目标和业务属性相匹配的组织,基于场景和AI的能力来重新定义数据资产,并且把这些能力无缝融入到业务当中,从而来形成飞轮。

这里面很多东西需要大家深度思考。

不管基座模型是国内的、国外的,开源的、闭源的,我觉得其实合适的才是最好的,所以这里面涉及每一个环节的每一个问题,都需要大家自己思考。

我们也希望借助四样能力,为每个企业构建自己科技战略新飞轮,随着每一轮的转动能够帮我们沉淀更多的能力,构建更多的壁垒。

谢谢大家!