打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

编辑|方奇

媒体|AI大模型工场

“坦白的讲,历史上我们从来没有见过任何一种技术以如此陡峭的创新曲线迭代和升级,持续的时间还如此之长。”智谱AI CEO张鹏表示。

的确,从ChatGPT到Sora,从百亿参数到千亿参数,甚至万亿规模,一方面模型能力呈指数级提升,另一方面,模型价格也在断崖式下降。

大模型的Scaling Law并未失效,相反,AI技术的增长进入了一个全新的阶段。

那么如何让快速增长的AI技术转化为全新的生产力?智谱AI给出自己的答案。

6月5日,智谱AI公布了清言App、MaaS大模型开放平台的最新更新,并同步开源了小模型GLM-4-9B

  • 清言 App 推出的多智能体协作系统清流,可以轻松实现在同一个对话框中自由调用多种不同的智能体协同工作。

  • MaaS 2.0 大模型开放平台全线接入新模型;推出全新企业权益服务体系进一步降低大模型使用成本;推出一键微调功能,无需代码,仅用三步即可完成模型微调;AllTools 智能体 API,为开发者提供了⼀套⼯具,利⽤模型、⼯具和知识来执⾏复杂、多步骤的任务,轻松构建强⼤的 AI 助⼿。

  • GLM-4-9B 开源模型综合能力相比 ChatGLM3-6B 提升 40% ,全面超过 Llama-3-8B-Instruct,中文学科能力提升 50%,最高支持达 1 百万 tokens 长文本,支持多达 26 种语言,函数调用(Function Call)能力媲美 GPT-4-Turbo。首次开源基于 GLM 基座的视觉模型 GLM-4V-9B,多模态能力比肩 GPT-4V。

  • GLM-4 新 API 模型发布,GLM-4-Air 生成速度提升 300%,达71 token/s。

开源小模型GLM-4-9B,比肩GPT-4

一般认为参数规模在10B(100亿)以下的为小模型。为了使小模型具备更加强大的能力,智谱团队进行了大量探索工作。

去年3月智谱就开源了 ChatGLM-6B,此次,作为第四代的GLM开源模型,GLM-4-9B拥有更强的基础能力,支持更长的上下文(最高支持1M/约两百万字),有更精准的函数调用和All Tools能力,并在这个尺寸上首次具备了多模态能力。

在预训练方面,GLM-4-9B 使用了超过 10T 高质量多语言数据,通用能力相比上一代模型提升40%,甚至超过了Llama 3 8b。

模型一共支持26种语言,并且最高支持1M(两百万字)的长文本。GLM-4-9B的函数调用能力提升了40%,性能比肩GPT-4,并且全面支持All Tools调用能力。

基于文本基座,智谱AI还扩展了多模态模型 GLM-4V-9B,能够很好的融合文本和视觉模态,其性能比肩 GPT-4V。

具体性能如下:

基础能力

基于强大的预训练基座,GLM-4-9B 的模型中英文综合性能相比 ChatGLM3-6B 提升了 40%,尤其是在中文对齐能力 AlignBench,指令遵从 IFeval,工程代码 Natural Code Bench 方面都取得了非常显著的提升。对比训练量更多的 Llama 3 8B 模型也没有逊色,英文方面有小幅领先,中文学科方面更是有着高达 50% 的提升。

打开网易新闻 查看更多图片

长文本能力

GLM-4-9B 模型的上下文从 128K 扩展到了 1M tokens,这意味着模型能同时处理 200 万字的输入,大概相当于 2 本红楼梦或者 125 篇论文的长度。

打开网易新闻 查看更多图片

GLM-4-9B-Chat-1M 模型在 1M 的上下文长度下进行了“大海捞针”实验,展现出了出色的无损处理能力。

打开网易新闻 查看更多图片

以下两个 demo 视频案例展示了 GLM-4-9B 的长文本能力。

打开网易新闻 查看更多视频
智谱开始定义“小模型”

在 GLM-4-9B-Chat 版本模型下,我们输入了 5 个 PDF 文件,总长度约为 128K,并给出了以下 prompt:“基于上述材料,写一个详细的调研报告,主题是中国大模型的发展,采用报告的书面格式。”结果显示,模型能够写出比较好的调研报告,且生成速度很快。(视频未加速)

智谱开始定义“小模型”

在 GLM-4-9B-Chat-1M 版本模型下,我们输入了《三体》的 3 本全集,约 90 万字,并给出以下 prompt:“请仔细阅读上面的三部小说,如果让你给这个小说写第四部,你会怎么写,请给出大纲。”模型能够比较合理地规划并给出续写的框架。(视频加速 10 倍)

多语言能力

GLM-4-9B 支持包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语、波兰语、日语、荷兰语、阿拉伯语、土耳其语、捷克语、越南语、波斯语、匈牙利语、希腊语、罗马尼亚语、瑞典语、乌克兰语、芬兰语、韩语、丹麦语、保加利亚语和挪威语在内的 26 种语言。

为了提升性能,智谱将 tokenizer 的词表大小从 65k 扩充到了 150k,这一改进使得编码效率提高了 30%。在多语言能力方面,我们在六个不同的多语言理解和生成数据集上进行了测试,结果显示 GLM-4-9B-Chat 显著超越 Llama-3-8B-Instruct。具体评测结果如下:

打开网易新闻 查看更多图片

Function Call 能力

ChatGLM3-6B 模型的函数调用一直广受各大开发者喜爱。GLM-4-9B 模型的函数调用能力更是迎来了巨大的升级,相比上一代提升了 40%,在 Berkeley Function-Calling Leaderboard 上,GLM-4-9B 模型的 Function Call 能力与 GPT-4 不相上下。

打开网易新闻 查看更多图片

All Tools 能力

“All Tools”即模型能够理解和使用一系列外部工具(比如代码执行、联网浏览、画图、文件操作、数据库查询、API 调用等)来辅助回答问题或完成任务。在 1 月 16 日的 Zhipu DevDay 上,GLM-4 模型全线升级了 All Tools 能力,模型可以智能调用网页浏览器、代码解释器、CogView 来完成用户的复杂请求。

打开网易新闻 查看更多图片

我们将这一功能带到了 GLM-4-9B 模型中,我们在开源仓库中提供了一个完整的 All Tools Demo,用户可以在本地拥有一个轻量级的清言平替。

智谱开始定义“小模型”

多模态能力

在强化文本能力的同时,我们首次推出了基于GLM基座的开源多模态模型GLM-4V-9B。这一模型采用了与CogVLM2相似的架构设计,能够处理高达1120 x 1120分辨率的输入,并通过降采样技术有效减少了token的开销。为了减小部署与计算开销,GLM-4V-9B没有引入额外的视觉专家模块,采用了直接混合文本和图片数据的方式进行训练,在保持文本性能的同时提升多模态能力。

打开网易新闻 查看更多图片

在性能方面,GLM-4V-9B模型展现了显著的优势。尽管其参数量仅为13B,但它成功地超越了许多参数量更大的开源模型。在众多任务中,GLM-4V-9B的性能与GPT-4V不相上下。

打开网易新闻 查看更多图片

以下两个 demo 展示了 GLM-4-9B 多模态能力。

打开网易新闻 查看更多图片

在第一个示例中,我们要求模型识别一件T恤上的公式印花。模型准确地识别出这是麦克斯韦方程组,并且当我们进一步追问关于麦克斯韦方程组的细节时,模型能够依靠其文本处理能力给出回答。这一过程证明了我们在引入多模态功能的同时,并未牺牲模型的文本处理能力。

打开网易新闻 查看更多图片

在第二个示例中,我们输入了一个网页截图,并要求模型将其翻译成HTML代码。模型能够直接识别截图中的元素,并输出相应的代码,展现了其在多模态任务中的实用性。

新一代Maas,价格卷到起飞

智谱AI新一代 MaaS 平台首先支持了一系列新模型,包括上文提到的最新开源的 GLM-4-9B。

除了GLM-4-9B,智谱AI正式推出的GLM-4-Air模型,性能可以跟规模更大的模型 GLM-4-0116媲美,但拥有更极致的性价比。GLM-4-Air依旧拥有128K的长上下文,相比GLM-4-0116,GLM-4-Air的推理速度提升到原来的300%,每秒可以输出71个token,远远超过了人眼的阅读速度。

打开网易新闻 查看更多图片

除了支持GLM-4全系列模型外,新一代MaaS平台还上线了更多的功能。例如,仅需准备数据,就能在创建微调任务,部署、训练完三个步骤后,就可以完成一个私有模型的训练。同时,新一代MaaS平台也支持LoRA高效参数微调和FPFT 全参微调,效果仅折损3%-5%。

All Tools智能体API为开发者提供了一套强大的工具,轻松构建强大的AI助手,利用模型、工具和知识来执行复杂、多步骤的任务。

价格方面,智谱AI模型价格降低10倍。新一代MaaS平台具有全新企业权益成长体系,企业认证即享9折优惠,在极限情况下所有的模型还可以全部打6折,GLM-4-Flash版本最低的情况只需要6分钱/100万tokens。

打开网易新闻 查看更多图片

智谱AI凭借着强大的模型能力和开源积累了新一批用户,目前,智谱 MaaS 开放平台已经拥有 30 万企业客户和开发者、400 亿 Tokens 日均调用量 、过去6个月API每日消费量增长了50倍以上。

智谱AI坚持“大模型+小模型”两条腿走路,我们目前关注更多的是大模型,信仰大模型的暴力美学。但实际上,在落地应用层面,小模型更“接地气”,更有优势。

大家都想当大将军,通晓十八般武艺,但十八般武艺也是一般一般练起来的,一个人想精通全部领域可能很难,但聚焦较窄的具体专业领域可能反而做得到。

小模型不仅能在单个小领域或许能更灵活、深入地解决问题,而且成本也极具优势,更具性价比。

如今,智谱AI作为大模型领域的一颗新星,正以其独特的策略和技术实力,冉冉升起。AI大模型工场将持续跟踪。

精准的「AI大模型垂直社群」,覆盖超 1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian ,注明真实身份。

数据支持天眼查,大模型独家合作账号

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

打开网易新闻 查看更多图片

大模型应用创业者,你怎么看?

■ 百度文心一言,阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■ 网易,金山办公大模型 ▍ 更多行业大模型案例

上次介绍BAT大模型投资的疯狂:海投的阿里,激进的腾讯,焦虑的百度

打开网易新闻 查看更多图片

本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

欢迎提供新的大模型商业化落地思路